CN114694644A

CN114694644A - 语音意图识别方法、装置及电子设备

Info

Publication number: CN114694644A
Application number: CN202210171068.0A
Authority: CN
Inventors: 刘建国; 施新梅
Original assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2022-07-01
Also published as: WO2023159881A1

Abstract

本发明公开了一种语音意图识别方法、装置及电子设备。其中，该方法包括：获取来自终端设备的语音数据及终端设备的状态数据；将语音数据和状态数据输入多分类模型，得到语音数据对应的意图识别结果，其中，多分类模型基于多组样本数据训练得到，多组样本数据包括样本语音数据和样本状态数据，以及样本语音数据对应的意图；向终端设备返回意图识别结果。本发明解决了相关技术中，语音意图识别结果不准确的技术问题。

Description

语音意图识别方法、装置及电子设备

技术领域

本发明涉及大数据领域，具体而言，涉及一种语音意图识别方法、装置及电子设备。

背景技术

在相关技术中，通常采用感知领域或认知领域的手段进行语义识别。前者利用计算机将语音转换成文字，再与自然语言理解、自然语言生成、语音合成技术结合，以提供基于语音的人机交互方法；后者则是利用语义理解和语言生成进行识别。由于在家电垂直领域进行语音的意图识别需要综合考虑多种信息，所以上述两种常用手段存在语音意图识别结果不准确的问题。

因此，在相关技术中，存在语音意图识别结果不准确的技术问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语音意图识别方法、装置及电子设备，以至少解决相关技术中，语音意图识别结果不准确的技术问题。

根据本发明实施例的一个方面，提供了一种语音意图识别方法，包括：获取来自终端设备的语音数据及终端设备的状态数据；将语音数据和状态数据输入多分类模型，得到语音数据对应的意图识别结果，其中，多分类模型基于多组样本数据训练得到，多组样本数据包括样本语音数据和样本状态数据，以及样本语音数据对应的意图；向终端设备返回意图识别结果。

可选地，获取终端设备的状态数据包括：获取终端设备的设备标识，以及与终端设备对应的账户信息；基于设备标识和账户信息，匹配出终端设备的状态数据。

可选地，在将语音数据和状态数据输入多分类模型，得到语音数据对应的意图识别结果之前，还包括：获取多组样本数据，其中，多组样本数据包括的样本语音数据中包括语音的关键词分类，多组样本数据包括的样本状态数据中包括以下至少之一：样本终端设备的接收样本语音数据的时间信息，空间信息，环境信息，样本终端设备的主控设备信息，样本终端设备的绑定设备信息，以及样本终端设备对应的样本账户的五元组信息，样本语音数据对应的意图包括：样本语音数据对应的操作设备，操作指令；采用多组样本数据进行机器训练，得到多分类模型。

可选地，终端设备包括智能音箱。

根据本发明实施例的另一方面，还提供了一种语音意图识别方法，包括：采集语音数据；将语音数据和终端设备的状态数据上报给服务器，其中，服务器用于采用多分类模型对语音数据及状态数据进行处理，得到语音数据对应的意图识别结果，多分类模型基于多组样本数据训练得到，多组样本数据包括样本语音数据和样本状态数据，以及样本语音数据对应的意图；接收服务器返回的意图识别结果。

可选地，上述方法还包括：在意图识别结果包括语音数据对应的目标操作设备，以及目标操作指令的情况下，向目标操作设备发送目标操作指令，使目标操作设备执行目标操作指令。

根据本发明实施例的另一方面，还提供了一种语音意图识别装置，包括：获取模块，用于获取来自终端设备的语音数据及终端设备的状态数据；处理模块，用于将语音数据和状态数据输入多分类模型，得到语音数据对应的意图识别结果，其中，多分类模型基于多组样本数据训练得到，多组样本数据包括样本语音数据和样本状态数据，以及样本语音数据对应的意图；返回模块，用于向终端设备返回意图识别结果。

根据本发明实施例的另一方面，还提供了一种语音意图识别装置，包括：采集模块，用于采集语音数据；上报模块，用于将语音数据和终端设备的状态数据上报给服务器，其中，服务器用于采用多分类模型对语音数据及状态数据进行处理，得到语音数据对应的意图识别结果，多分类模型基于多组样本数据训练得到，多组样本数据包括样本语音数据和样本状态数据，以及样本语音数据对应的意图；接收模块，用于接收服务器返回的意图识别结果。

根据本发明实施例的另一方面，还提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现上述任一项的语音意图识别方法。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述任一项的语音意图识别方法。

在本发明实施例中，通过将终端设备获取的语音数据和状态数据输入多分类模型，进行语音的意图识别，并把意图识别结果返回给终端设备，由于在对语音进行意图识别时，不仅考虑了语音数据本身，还考虑了接收语音数据时的状态数据，因此，在对语音的意图进行识别时，基于丰富的信息能够有效提升语音意图识别的准确性。另外，由于多分类模型经过了样本语音数据、样本状态数据以及样本语音数据对应的意图的充分训练，其中，样本语音数据和样本状态数据包含了当前领域的多种信息，因此，多分类模型可以根据输入的语音数据和状态数据，高效准确地得出输入语音对应的意图，从而实现了高效准确识别语音对应意图的技术效果，进而解决了相关技术中，语音意图识别结果不准确技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的语音意图识别方法一的流程图；

图2是根据本发明实施例的语音意图识别方法二的流程图；

图3是本发明可选实施方式的流程示意图；

图4是本发明可选实施方式的机器学习预训练模型原理图；

图5是根据本发明实施例提供的语音意图识别装置一的结构框图；

图6是根据本发明实施例提供的语音意图识别装置二的结构框图；

图7是根据本发明实施例提供的语音意图识别电子设备示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

自动语音识别技术(Automatic Speech Recognition，简称ASR)，是一种将人的语音转换为文本的技术。

自然语言处理(Natural Language Processing，简称NLP)，是研究人与计算机交互的语言问题的一门学科。

自然语言理解(Natural Language Understanding，简称NLU)，俗称人机对话。人工智能的分支学科，研究用电子计算机模拟人的语言交际过程，使计算机能理解和运用人类社会的自然语言，如汉语、英语等，实现人机之间的自然语言通信。

自然语言生成(Natural Language Generation，简称NLG)，指计算机以自然语言文本来表达它想要达到的意图。

网器，物理件、智能件和连接件三合一的产品，可引入物联网和人机对话。

XGboost，一个优化的分布式梯度增强库，旨在实现高效、灵活和便携。

物联网(Internet of Things，简称IOT)，指通过各种信息传感器、射频识别技术、全球定位系统、红外感应器、激光扫描器等各种装置与技术，实时采集任何需要连接、互动的物体或过程，采集其声、光、热、电、力学、化学、生物、位置等各种需要的信息，通过各类可能的网络接入，实现物与物、物与人的泛在连接，实现对物品和过程的智能化感知、识别和管理。

HBase，一个分布式的、面向列的开源式数据库。

Kafka，由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。

Elasticsearch，一个基于Lucene的搜索服务器，提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。

Flink，一个分布式计算框架，可以快速处理任意规模的数据。

五元组，通信术语，通常是指IP地址，源端口，目的IP地址，目的端口和传输层协议。

根据本发明实施例，提供了一种语音意图识别方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的语音意图识别方法一的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取来自终端设备的语音数据及终端设备的状态数据；

步骤S104，将语音数据和状态数据输入多分类模型，得到语音数据对应的意图识别结果，其中，多分类模型基于多组样本数据训练得到，多组样本数据包括样本语音数据和样本状态数据，以及样本语音数据对应的意图；

步骤S106，向终端设备返回意图识别结果。

通过上述步骤，通过将终端设备获取的语音数据和状态数据输入多分类模型，进行语音的意图识别，并把意图识别结果返回给终端设备，由于在对语音进行意图识别时，不仅考虑了语音数据本身，还考虑了接收语音数据时的状态数据，因此，在对语音的意图进行识别时，基于丰富的信息能够有效提升语音意图识别的准确性。另外，由于多分类模型经过了样本语音数据、样本状态数据以及样本语音数据对应的意图的充分训练，其中，样本语音数据和样本状态数据包含了当前领域的多种信息，因此，多分类模型可以根据输入的语音数据和状态数据，高效准确地得出输入语音对应的意图，从而实现了高效准确识别语音对应意图的技术效果，进而解决了相关技术中，语音意图识别结果不准确技术问题。

作为一种可选的实施例，将终端设备获取的语音数据和状态数据输入多分类模型，进行语音的意图识别，把意图识别结果返回给终端设备。其中，多分类模型经过了样本语音数据、样本状态数据以及样本语音数据对应的意图的充分训练，使得采用多分类模型进行语音意图预测时，不仅高效，而且准确。另外，样本语音数据和样本状态数据可以包含当前领域的多种信息，例如，语音数据中可以包括当前垂直领域的设备名词或常用表达关键词等等，状态数据可以包括当前终端设备的开关状态，室内环境信息，位置信息等等。举例来说，该多分类模型可以根据输入的语音数据和状态数据准确地得出输入语音对应的意图。例如，语音数据中有“黑”或“暗”等关键词，状态数据中接收语音的时间为晚上，且灯的开关状态为“关”，就可以判断为语音的意图为“开灯”。又例如，语音数据中有关键词“热”，状态数据中接收语音的时间为夏天，且空调的开关状态为“关”，就可以判断为语音的意图为“打开空调制冷”。从而实现根据语音高效，准确识别其对应意图的技术效果，进而解决了相关技术中，语音意图识别结果不准确技术问题，为用户提供更好的使用体验。

需要说明的是，在实际应用中，对语音意图的识别结果不一定为单独的一种意图，也可以根据语音并行地识别出多种意图。

作为一种可选的实施例，获取终端设备的状态数据时可以采用以下方式：获取终端设备的设备标识，以及与终端设备对应的账户信息；基于设备标识和账户信息，匹配出终端设备的状态数据。通过根据设备标识和账户信息直接匹配终端设备的状态数据，可以极大程度地简化确定终端设备状态的操作过程，例如，终端设备只需要上报其对应的设备标识和账户信息，就可以直接地、准确地获取终端设备的实时状态数据。其中，状态数据可以包括多种，例如，可以包括地域、环境、房间信息、终端设备开关状态等等。账户信息也可以包括多种，例如，可以包括账户对应绑定的终端设备列表或账户对各终端设备的操作偏好等等。由于上述状态数据和账户信息涵盖了当前垂直领域中可能涉及的各种类别信息，所以，状态数据和账户信息可以提供更全面的意图识别的判断依据。需要说明的是，上述的账户信息可以是与该终端设备绑定的标识信息，可以对应于一个用户，也可以对应于多个用户，或者对应于一个或多个组织等。

作为一种可选的实施例，在将语音数据和状态数据输入多分类模型，得到语音数据对应的意图识别结果之前，还可以：获取多组样本数据，其中，多组样本数据包括的样本语音数据中包括语音的关键词分类，多组样本数据包括的样本状态数据中包括以下至少之一：样本终端设备的接收样本语音数据的时间信息，空间信息，环境信息，样本终端设备的主控设备信息，样本终端设备的绑定设备信息，以及样本终端设备对应的样本账户的五元组信息，样本语音数据对应的意图包括：样本语音数据对应的操作设备，操作指令；采用多组样本数据进行机器训练，得到多分类模型。由于上述多组样本数据涵盖了当前垂直领域中可能涉及的各种类别的信息、可能产生对终端设备进行操作意图的各种因素以及五元组信息中的上下文动作，所以多分类模型可以通过上述多组样本数据进行非常充分全面的训练。尤其是五元组信息可以统筹全域行为并按照时间排序以区分各动作，更是为多分类模型保证了输入数据的有效性。同时，根据状态数据解析出用户在发出语音后实际进行的操作，也可以以此作为多分类模型的训练目标标记或是用于测试结果。综上，经过多组样本数据的训练后，使得多分类模型可以通过语音数据和状态数据准确地判断出语音的意图。

作为一种可选的实施例，终端设备可以包括多种，例如，包括智能音箱。智能音箱作为终端设备的可选设备，不仅可以获取语音数据和状态数据，或是接收意图识别结果，还可以根据识别出的意图实现进一步的人机交互，提供更优质的用户体验。

图2是根据本发明实施例的语音意图识别方法二的流程图，如图2所示，该方法包括如下步骤：

步骤S202，采集语音数据；

步骤S204，将语音数据和终端设备的状态数据上报给服务器，其中，服务器用于采用多分类模型对语音数据及状态数据进行处理，得到语音数据对应的意图识别结果，多分类模型基于多组样本数据训练得到，多组样本数据包括样本语音数据和样本状态数据，以及样本语音数据对应的意图；

步骤S206，接收服务器返回的意图识别结果。

通过上述步骤，只需将采集的语音数据和终端状态数据上报服务器，就可以接收到服务器返回的意图识别结果，由于用于意图识别的多分类模型是经过多组样本数据训练得到的，而多组样本数据又涵盖了当前垂直领域中可能涉及的各种类别的信息、可能产生对终端设备进行操作意图的各种因素以及样本语音数据对应的真实意图，所以多分类模型得出的意图识别结果是准确可靠的，因此，通过上述步骤就可以快速地得到语音意图识别的准确结果，进而解决了相关技术中，语音意图识别结果不准确技术问题，为用户提供更好的使用体验。

作为一种可选的实施例，在意图识别结果包括语音数据对应的目标操作设备，以及目标操作指令的情况下，向目标操作设备发送目标操作指令，使目标操作设备执行目标操作指令。通过上述操作，可以根据接受到的意图识别结果对目标操作设备执行对应的目标操作指令，为用户提供更加高效、优质的使用体验。

基于上述实施例和可选实施例，提供一种可选实施方式，下面具体说明。

在相关技术中，语音智能主要分为两个领域，一个是感知领域(ASR)，一个是认知领域(NLP)。其中，感知领域是指利用计算机实现语音到文字的自动转换的任务，在实际应用中，语音识别通常与自然语言理解、自然语言生成和语音合成技术结合在一起，提供一个基于语音的自然流畅的人机交互方法。认知领域包括自然语义理解(NLU)和自然语言生成(NLG)。业界在语言感知领域通常采用第三方语音识别引擎，但在认知领域缺乏成熟的解决方案，行业细分知识庞杂丰富，难以统一，因此在垂直领域进行实验研究成为一种方式。

在相关技术中，AI面临语义理解难度大和标注数据资源贫乏的问题，尤其在语音意图识别(NLU)环节存在技术瓶颈；具体表现为：用户的模糊语义无法精确识别，暂时依赖固定的规则算法进行判别，缺乏逻辑关联，导致意图判断失误引起用户客诉。比如用户询问为“太冷了”、“太暗了”等无实体词的语境，NLP目前无法准确识别用户意图。

本发明可选实施方式解决的是通过语音询问的上下文、环境、时间、用户习惯和偏好等信息进行推理判断，提高了用户意图识别的准确率，同时改善了用户的智慧场景体验。

本发明可选实施方式主要研究语义理解，以家电垂直领域的生活用语作为基本语料，结合用户的实时家电状态和语言上下文、环境、房间位置等关键特征，进行多分类模型训练，输出用户可能操作的家电类型和操作参数。

相关技术中的语义理解模型基于规则和知识图谱，缺乏上下文和环境等信息输入；也缺乏标注数据进行校验；识别准确率不高。

本发明可选实施方式，采用大规模语料数据和网器上报的状态数据作为训练数据，结合机器学习多分类模型(XGboost)进行模型训练，并且结合人工标注数据进行有监督反馈，极大提高了模型的召回率和精准率，弥补了AI团队在语义理解领域的空白和数据原料短板。同时本发明可选实施方式属于AI和IOT的桥梁环节，可作为中枢，联接输入端和输出端。

图3是本发明可选实施方式的流程示意图，如图3所示，本发明可选实施方式包括：

(1)架构图(分为网器、语音、大数据、IOT四个功能单元)，实时数据流传输介质为kafka；

(2)上游输入网器上报状态数据、语音词向量、问询的时间、空间、环境信息；

(3)中游为大数据存储介质和处理装备，存储介质选用hbase或者elasticsearch作为实时数据流的缓存介质；处理装备采用Flink引擎作为实时计算引擎，进行规则和逻辑处理；同时也调用离线预训练模型进行算法补充；

(4)下游输出为云端网器操作命令，包括意图和槽位信息。终端输出由IOT进行设备操作指令解析和表达。

图4是本发明可选实施方式的机器学习预训练模型原理图，如图4所示，包括：

(1)AI端作为数据输入源，输入语音关键词分类、设备标识、用户标识和语音查询时间；

(2)大数据根据设备标识和用户标识匹配用户的实时地域、环境、房间信息，以及设备的主控设备信息，用户绑定的设备列表；

(3)同时大数据会根据用户标识实时查询五元组行为数据(上下文的行为标识)；

(4)综合(1)至(3)的离线和实时数据输入(X1....XN)，调用算法组的离线训练模型(XGBOOST)，分成训练组和测试组，行为标记(Y)为根据设备上报状态解析的真实行为标识；

(5)返回给AI的预测结果是选择的设备大类、动作和设备标识。

在本发明可选实施方式中，五元组行为数据统筹了用户全域的行为，按时间进行排序，区分上一个动作和下一个动作，为分类模型输入了有效的数据源；通过设备上报状态推演出用户真实发生的动作标识，作为分类模型的行为标记。其中，经过实验，XGBOOST多分类模型作为在多熵状态下有监督模型，训练效果显著。分类选择的准确率达到80％以上。

采用上述可选实施方式，有效地解决了相关技术中，只具备某些环节或者某些品类的智慧控制或者交互能力的问题。针对相关技术，在物联网生态体系中，只包括某些家具设备，而且跨品类互联互通并未打通，有些则在全品类家居和互联互通具备优势，但不具备高阶技能的该问题，本发明可选实施方式可以应用于全屋智慧家居，同时结合AI赋能智慧家居，使家电具备一定程度的记忆、学习、预测能力，能实时感知和识别用户的需求和意图，给用户提供贴心的服务和精确的设备控制。

综上，本发明可选实施方式通过AI多分类选择模型，结合用户行为的上下文和设备状态，以及全屋家居模型，精准地识别用户意图，提供高阶的智能场景服务。

根据本发明实施例，还提供了一种用于实施上述语音意图识别方法一的装置，图5是根据本发明实施例提供的语音意图识别装置一的结构框图，如图5所示，该装置包括：获取模块51，处理模块52和返回模块53，下面对该装置进行说明。

获取模块51，用于获取来自终端设备的语音数据及终端设备的状态数据；处理模块52，连接至上述获取模块51，用于将语音数据和状态数据输入多分类模型，得到语音数据对应的意图识别结果，其中，多分类模型基于多组样本数据训练得到，多组样本数据包括样本语音数据和样本状态数据，以及样本语音数据对应的意图；返回模块53，连接至上述处理模块52，用于向终端设备返回意图识别结果。

作为一种可选的实施例，获取模块51包括：第一获取单元，用于获取终端设备的设备标识，以及与终端设备对应的账户信息；匹配单元，用于基于设备标识和账户信息，匹配出终端设备的状态数据。

作为一种可选的实施例，上述装置还包括：第二获取单元，用于获取多组样本数据，其中，多组样本数据包括的样本语音数据中包括语音的关键词分类，多组样本数据包括的样本状态数据中包括以下至少之一：样本终端设备的接收样本语音数据的时间信息，空间信息，环境信息，样本终端设备的主控设备信息，样本终端设备的绑定设备信息，以及样本终端设备对应的样本账户的五元组信息，样本语音数据对应的意图包括：样本语音数据对应的操作设备，操作指令；训练单元，用于采用多组样本数据进行机器训练，得到多分类模型。

作为一种可选的实施例，终端设备包括智能音箱。

根据本发明实施例，还提供了一种用于实施上述语音意图识别方法二的装置，图6是根据本发明实施例提供的语音意图识别装置二的结构框图，如图6所示，该装置包括：采集模块61，上报模块62和接收模块63，下面对该装置进行说明。

采集模块61，用于采集语音数据；上报模块62，连接至上述采集模块61，用于将语音数据和终端设备的状态数据上报给服务器，其中，服务器用于采用多分类模型对语音数据及状态数据进行处理，得到语音数据对应的意图识别结果，多分类模型基于多组样本数据训练得到，多组样本数据包括样本语音数据和样本状态数据，以及样本语音数据对应的意图；接收模块63，连接至上述上报模块62，用于接收服务器返回的意图识别结果。

作为一种可选的实施例，上述装置还包括：执行单元，用于在意图识别结果包括：语音数据对应的目标操作设备，以及目标操作指令的情况下，向目标操作设备发送目标操作指令，使目标操作设备执行目标操作指令。

根据本发明实施例，还提供了一种电子设备，图7是根据本发明实施例提供的语音意图识别电子设备示意图，如图7所示，该电子设备包括：处理器702；用于存储处理器可执行指令的存储器704等。

需要说明的是，在本发明实施例中，上述电子设备可以是终端设备，也可以是服务器。

上述电子设备可以执行应用程序的语音意图识别方法中以下步骤的程序代码：获取来自终端设备的语音数据及终端设备的状态数据；将语音数据和状态数据输入多分类模型，得到语音数据对应的意图识别结果，其中，多分类模型基于多组样本数据训练得到，多组样本数据包括样本语音数据和样本状态数据，以及样本语音数据对应的意图；向终端设备返回意图识别结果。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的语音意图识别方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音意图识别方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取来自终端设备的语音数据及终端设备的状态数据；将语音数据和状态数据输入多分类模型，得到语音数据对应的意图识别结果，其中，多分类模型基于多组样本数据训练得到，多组样本数据包括样本语音数据和样本状态数据，以及样本语音数据对应的意图；向终端设备返回意图识别结果。

可选的，上述处理器还可以执行如下步骤的程序代码：获取终端设备的设备标识，以及与终端设备对应的账户信息；基于设备标识和账户信息，匹配出终端设备的状态数据。

可选的，上述处理器还可以执行如下步骤的程序代码：获取多组样本数据，其中，多组样本数据包括的样本语音数据中包括语音的关键词分类，多组样本数据包括的样本状态数据中包括以下至少之一：样本终端设备的接收样本语音数据的时间信息，空间信息，环境信息，样本终端设备的主控设备信息，样本终端设备的绑定设备信息，以及样本终端设备对应的样本账户的五元组信息，样本语音数据对应的意图包括：样本语音数据对应的操作设备，操作指令；采用多组样本数据进行机器训练，得到多分类模型。

可选的，上述处理器还可以执行如下步骤的程序代码：终端设备包括智能音箱。

可选的，上述处理器还可以执行如下步骤的程序代码：采集语音数据；将语音数据和终端设备的状态数据上报给服务器，其中，服务器用于采用多分类模型对语音数据及状态数据进行处理，得到语音数据对应的意图识别结果，多分类模型基于多组样本数据训练得到，多组样本数据包括样本语音数据和样本状态数据，以及样本语音数据对应的意图；接收服务器返回的意图识别结果。

可选的，上述处理器还可以执行如下步骤的程序代码：在意图识别结果包括语音数据对应的目标操作设备，以及目标操作指令的情况下，向目标操作设备发送目标操作指令，使目标操作设备执行目标操作指令。

根据本发明实施例，还提供了一种计算机可读存储介质，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述实施例中任一项的语音意图识别方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音意图识别方法，其特征在于，包括：

获取来自终端设备的语音数据及所述终端设备的状态数据；

将所述语音数据和所述状态数据输入多分类模型，得到所述语音数据对应的意图识别结果，其中，所述多分类模型基于多组样本数据训练得到，所述多组样本数据包括样本语音数据和样本状态数据，以及所述样本语音数据对应的意图；

向所述终端设备返回所述意图识别结果。

2.根据权利要求1所述的方法，其特征在于，所述获取所述终端设备的状态数据包括：

获取所述终端设备的设备标识，以及与所述终端设备对应的账户信息；

基于所述设备标识和所述账户信息，匹配出所述终端设备的状态数据。

3.根据权利要求1所述的方法，其特征在于，在所述将所述语音数据和所述状态数据输入多分类模型，得到所述语音数据对应的意图识别结果之前，还包括：

获取所述多组样本数据，其中，所述多组样本数据包括的样本语音数据中包括语音的关键词分类，所述多组样本数据包括的样本状态数据中包括以下至少之一：样本终端设备的接收所述样本语音数据的时间信息，空间信息，环境信息，所述样本终端设备的主控设备信息，所述样本终端设备的绑定设备信息，以及所述样本终端设备对应的样本账户的五元组信息，所述样本语音数据对应的意图包括：所述样本语音数据对应的操作设备，操作指令；

采用所述多组样本数据进行机器训练，得到所述多分类模型。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述终端设备包括智能音箱。

5.一种语音意图识别方法，其特征在于，包括：

采集语音数据；

将所述语音数据和终端设备的状态数据上报给服务器，其中，所述服务器用于采用多分类模型对所述语音数据及所述状态数据进行处理，得到所述语音数据对应的意图识别结果，所述多分类模型基于多组样本数据训练得到，所述多组样本数据包括样本语音数据和样本状态数据，以及所述样本语音数据对应的意图；

接收所述服务器返回的所述意图识别结果。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

在所述意图识别结果包括：所述语音数据对应的目标操作设备，以及目标操作指令的情况下，向所述目标操作设备发送所述目标操作指令，使所述目标操作设备执行所述目标操作指令。

7.一种语音意图识别装置，其特征在于，包括：

获取模块，用于获取来自终端设备的语音数据及所述终端设备的状态数据；

处理模块，用于将所述语音数据和所述状态数据输入多分类模型，得到所述语音数据对应的意图识别结果，其中，所述多分类模型基于多组样本数据训练得到，所述多组样本数据包括样本语音数据和样本状态数据，以及所述样本语音数据对应的意图；

返回模块，用于向所述终端设备返回所述意图识别结果。

8.一种语音意图识别装置，其特征在于，包括：

采集模块，用于采集语音数据；

上报模块，用于将所述语音数据和终端设备的状态数据上报给服务器，其中，所述服务器用于采用多分类模型对所述语音数据及所述状态数据进行处理，得到所述语音数据对应的意图识别结果，所述多分类模型基于多组样本数据训练得到，所述多组样本数据包括样本语音数据和样本状态数据，以及所述样本语音数据对应的意图；

接收模块，用于接收所述服务器返回的所述意图识别结果。

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的语音意图识别方法。

10.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至6中任一项所述的语音意图识别方法。