CN115171680A

CN115171680A - 设备的语音交互方法和装置、存储介质及电子装置

Info

Publication number: CN115171680A
Application number: CN202210635792.4A
Authority: CN
Inventors: 闫春志; 郭义合
Original assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2022-10-11

Abstract

本申请提供了一种设备的语音交互方法和装置、存储介质及电子装置，上述方法包括：获取目标设备发送的目标交互请求，其中，目标交互请求中携带有目标设备采集到的、与使用对象发出的目标交互语句对应的交互语音数据；响应于目标交互请求，获取一组参考信息，其中，一组参考信息是生成与目标交互语句对应的响应语句所使用的信息；在一组参考信息中使用对象的预设对象属性的属性信息为空的情况下，对交互语音数据进行解析，得到预设对象属性的属性信息；使用预设对象属性的属性信息更新一组参考信息，得到更新后的一组参考信息；使用更新后的一组参考信息生成与目标交互语句对应的目标响应语句，并控制目标设备向使用对象发出目标响应语句。

Description

设备的语音交互方法和装置、存储介质及电子装置

技术领域

本申请涉及通信领域，具体而言，涉及一种设备的语音交互方法和装置、存储介质及电子装置。

背景技术

相关技术中，用户可以在智能设备所对应的App(Application，应用程序)注册用户的声纹数据，并填写对应的用户信息。在与用户进行语音交互的过程中，可以基于与注册的声纹数据的匹配区分用户的身份(例如，区分用户的年龄、性别等)，并为用户生成对应的交互语句。

然而，在进行声纹注册时，需要用户填写详细的用户信息，才能够准确地为其生成交互语句，在所需的信息不完整时，则生成的交互语句不准确，不能符合用户的预期，影响用户的交互体验，进而使得智能设备的使用率较低。

由此可知，相关技术中的设备的语音交互方法，存在由于所需的信息不完整导致的生成的交互语句不准确的问题。

发明内容

本申请实施例提供一种设备的语音交互方法和装置、存储介质及电子装置，以至少解决相关技术中的设备的语音交互方法存在由于所需的信息不完整导致的生成的交互语句不准确的问题。

根据本申请实施例的一个方面，提供了一种设备的语音交互方法，包括：获取目标设备发送的目标交互请求，其中，所述目标交互请求中携带有所述目标设备采集到的、与使用对象发出的目标交互语句对应的交互语音数据；响应于所述目标交互请求，获取一组参考信息，其中，所述一组参考信息是生成与所述目标交互语句对应的响应语句所使用的信息；在所述一组参考信息中所述使用对象的预设对象属性的属性信息为空的情况下，对所述交互语音数据进行解析，得到所述预设对象属性的属性信息；使用所述预设对象属性的属性信息更新所述一组参考信息，得到更新后的所述一组参考信息；使用更新后的所述一组参考信息生成与所述目标交互语句对应的目标响应语句，并控制所述目标设备向所述使用对象发出所述目标响应语句。

根据本申请实施例的另一个方面，还提供了一种设备的语音交互装置，包括：第一获取单元，用于获取目标设备发送的目标交互请求，其中，所述目标交互请求中携带有所述目标设备采集到的、与使用对象发出的目标交互语句对应的交互语音数据；第二获取单元，用于响应于所述目标交互请求，获取一组参考信息，其中，所述一组参考信息是生成与所述目标交互语句对应的响应语句所使用的信息；解析单元，用于在所述一组参考信息中所述使用对象的预设对象属性的属性信息为空的情况下，对所述交互语音数据进行解析，得到所述预设对象属性的属性信息；更新单元，用于使用所述预设对象属性的属性信息更新所述一组参考信息，得到更新后的所述一组参考信息；执行单元，用于使用更新后的所述一组参考信息生成与所述目标交互语句对应的目标响应语句，并控制所述目标设备向所述使用对象发出所述目标响应语句。

根据本申请实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述设备的语音交互方法。

根据本申请实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的设备的语音交互方法。

在本申请实施例中，由于在生成响应语句时，通过对交互语音数据进行解析，基于解析结果对缺失的部分对象信息进行补充，可以实现提高生成交互语句的所需的信息的完整性的目的，达到了提升生成的交互语句的准确性的技术效果，进而解决了相关技术中的设备的语音交互方法存在由于所需的信息不完整导致的生成的交互语句不准确的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例的一种可选的设备的语音交互方法的硬件环境的示意图；

图2是根据本申请实施例的一种可选的设备的语音交互方法的流程示意图；

图3是根据本申请实施例的另一种可选的设备的语音交互方法的流程示意图；

图4是根据本申请实施例的一种可选的设备的语音交互方法的示意图；

图5是根据本申请实施例的一种可选的设备的语音交互装置的结构框图；

图6是根据本申请实施例的一种可选的电子装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例的一个方面，提供了一种设备的语音交互方法。设备的语音交互方法广泛应用于智慧家庭(Smart Home)、智能家居、智能家用设备生态、智慧住宅(Intelligence House)生态等全屋智能数字化控制应用场景。可选地，在本实施例中，上述设备的语音交互方法可以应用于如图1所示的由终端102和服务器104所构成的硬件环境中。如图1所示，服务器104通过网络与终端102进行连接，可用于为终端或终端上安装的客户端提供服务(如应用服务等)，可在服务器上或独立于服务器配置云计算和/或边缘计算服务，用于为服务器104提供数据运算服务。

上述网络可以包括但不限于以下至少之一：有线网络，无线网络。上述有线网络可以包括但不限于以下至少之一：广域网，城域网，局域网，上述无线网络可以包括但不限于以下至少之一：WIFI(Wireless Fidelity，无线保真)，蓝牙。终端102可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。

本申请实施例的设备的语音交互方法可以由服务器104来执行，也可以由终端102来执行，还可以是由服务器104和终端102共同执行。其中，终端102执行本申请实施例的设备的语音交互方法也可以是由安装在其上的客户端来执行。

以由服务器104来执行本实施例中的设备的语音交互方法为例，图2是根据本申请实施例的一种可选的设备的语音交互方法的流程示意图，如图2所示，该方法的流程可以包括以下步骤：

步骤S202，获取目标设备发送的目标交互请求，其中，目标交互请求中携带有目标设备采集到的、与使用对象发出的目标交互语句对应的交互语音数据。

本实施例中的设备的语音交互方法可以应用到通过目标设备与目标设备的使用对象进行语音交互的场景中。上述目标设备可以是终端设备，也可以是智能家居设备，本实施例中对此不做限定。上述的智能家居设备可以是位于用户家庭中的智能家居设备，可以为智能电视机、智能冰箱、智能热水器等安装有智能芯片的电子设备，上述智能家居设备相比于传统的家居设备增加了计算模块、网络接口、输入输出装置等，从而使得本实施例中的智能家居设备具有智能分析和智能服务的功能。

可选地，目标对象可以是与智能家居设备建立连接关系的对象，也可以是与智能家居设备位于同一位置区域的对象，其可以用于表示特定用户，也可以用于表示与智能家居设备位于同一位置区域的用户，本实施例中对此不做限定。例如，目标对象可以是与智能冰箱位于同一个房间的用户。

在本实施例中，服务器可以获取目标设备发送的目标交互请求，上述目标交互请求中携带有目标设备采集到的、与使用对象发出的目标交互语句对应的交互语音数据。可选地，目标设备可以在对使用对象发出的目标交互语句进行采集，得到与目标交互语句对应的交互语音数据之后，向服务器发送目标交互请求。

可选地，目标交互请求中除了可以携带有交互语音数据外，还可以携带有其他的参考信息。可选地，上述参考信息可以是用于表示使用对象当前所处位置的位置信息，也可以是用于表示使用对象当前所处的健康状态信息，还可以是其他的参考信息，本实施例中对此不做限定。

需要说明的是，使用对象当前所处位置或者使用对象当前所处的健康状态可以是通过上述参考信息直接指示的，也可以是对上述参考信息进行一定处理之后得到的，例如，上述参考信息可以是使用对象或者目标设备所处的经纬度信息，通过对经纬度信息进行转换，可以将其转换为使用对象所处的省份、行政区域等等。又例如，上述参考信息可以是使用对象的对象面部图像或者其他部位的图像、体表温度等，通过对对象面部图像或者其他部位的图像、体表温度等进行转换，可以将其转换为使用对象所处的健康状态，例如，健康状态良好、健康状态欠佳等等，本实施例中对此不做限定。

步骤S204，响应于目标交互请求，获取一组参考信息，其中，一组参考信息是生成与目标交互语句对应的响应语句所使用的信息。

在本实施例中，在获取到目标交互请求之后，可以对目标交互请求进行响应。可选地，可以响应于目标交互请求，获取一组参考信息，上述一组参考信息可以是生成与目标交互语句对应的响应语句所使用的信息。对于不同类型的交互请求，生成其对应的响应语句所需的参考信息可以是相同的，也可以是不同的，根据预先配置的交互语句类型与生成交互语句的响应语句所需的参考信息之间的对应关系，可以确定与目标交互语句所对应的上述一组参考信息。

可选地，一组参考信息可以包括多种类型的参考信息，可以包括但不限于以下至少之一的参考信息：随时间实时变化的参考信息，例如，环境状态、健康状态、情绪类型等等，不随时间变化或者随时间变化较小的参考信息，例如，年龄、性别、身高。可选地，一组参考信息可以包括与使用对象相关的对象信息，例如，健康状态、情绪类型、年龄、性别、身高等，也可以包括与使用对象无关的信息，例如，环境状态。对于不同的参考信息，可以设定获取该参考信息的方式，例如，从预先存储的对象信息中获取、从交互请求中所携带的信息获取、通过搜索引擎从网络中获取等。

上述响应于目标交互请求，获取一组参考信息的过程可以是：根据与一组参考信息中的每个参考信息的信息类型对应的信息获取方式，获取每个参考信息。每个参考信息的获取结果可以有两种，即，获取到的参考信息(结果不为空)，未获取到对应的参考信息(结果为空)。不同的参考信息，其获取结果可以是相同的，也可以是不同的。

例如，当一组参考信息为信息A、信息B、信息C以及信息D时，其中，信息A和信息B是从预先存储的对象信息中获取的信息，信息A获取到的信息不为空，信息B获取到的信息为空，信息C是从交互语音数据中获取的信息，而信息D是通过搜索引擎从网络中获取的信息。

步骤S206，在一组参考信息中使用对象的预设对象属性的属性信息为空的情况下，对交互语音数据进行解析，得到预设对象属性的属性信息。

服务器上可以预先设定允许通过对交互语音数据进行解析的方式获取到的一组对象属性，例如，年龄、性别等。对于一组参考信息，其中可以包含获取到的信息为空的参考信息。如果其中包含属于一组对象属性的属性信息，且其中的预设对象属性的属性信息为空，则可以对交互语音数据进行解析，得到预设对象属性的属性信息。

可选地，上述对交互语音数据进行解析，得到预设对象属性的属性信息的过程可以是：先对交互语音数据进行解析，得到交互语音数据对应的语音特征，再根据确定出的语音特征，确定预设对象属性的属性信息。这里，除了预设对象属性的属性信息为空以外，一组参考信息还可以能存在其他为空的参考信息，对于其他为空的参考信息，可以采用其他方式进行获取，例如，通过与使用对象进行语音交互获取、尝试以这些属性信息为空为条件进行响应语句的生成，还可以是其他方式，本实施例中对此不作限定。

步骤S208，使用预设对象属性的属性信息更新一组参考信息，得到更新后的一组参考信息。

在本实施例中，在获取到预设对象属性的属性信息之后，可以使用预设对象属性的属性信息更新一组参考信息，得到更新后的一组参考信息。可选地，上述使用预设对象属性的属性信息更新一组参考信息，得到更新后的一组参考信息的过程可以是：将一组参考信息中的预设对象属性的属性信息更新为解析到的属性信息，得到更新后的一组参考信息。

可选地，在得到更新后的一组参考信息之后，可以将预设对象属性的属性信息进行保存，保存的方式可以是将预设对象属性的属性信息与使用对象建立索引关系，并将其保存，例如，保存预设对象属性的属性信息与使用对象唯一对应关系。

步骤S210，使用更新后的一组参考信息生成与目标交互语句对应的目标响应语句，并控制目标设备向使用对象发出目标响应语句。

在本实施例中，在得到更新后的一组参考信息之后，可以使用更新后的一组参考信息生成与目标交互语句对应的目标响应语句。可选地，上述使用更新后的一组参考信息生成与目标交互语句对应的目标响应语句的过程可以是：按照目标交互语句的交互语句类型，确定于该交互语句类型对应的响应语句模板，将更新后的一组参考信息中的每个参考信息分别填入到响应语句模板对应的位置，从而得到目标响应语句；或者，也可以采用其他的响应语句生成方式，本实施例中对此不做限定。

可选地，在生成目标响应语句之后，可以控制目标设备向使用对象发出目标响应语句。可选地，上述向使用对象发出目标响应语句的方式可以是：通过目标设备上的声音播报部件(如，扬声器)，向使用对象播报目标响应语句；或者是，将目标响应语句以文字的形式显示在目标设备的显示部件上；还可以是，将目标响应语句以文字的形式显示在使用对象的终端设备的显示部件上，本实施例中对此不做限定。

通过上述步骤S202至步骤S210，通过获取目标设备发送的目标交互请求，其中，目标交互请求中携带有目标设备采集到的、与使用对象发出的目标交互语句对应的交互语音数据；响应于目标交互请求，获取一组参考信息，其中，一组参考信息是生成与目标交互语句对应的响应语句所使用的信息；在一组参考信息中使用对象的预设对象属性的属性信息为空的情况下，对交互语音数据进行解析，得到预设对象属性的属性信息；使用预设对象属性的属性信息更新一组参考信息，得到更新后的一组参考信息；使用更新后的一组参考信息生成与目标交互语句对应的目标响应语句，并控制目标设备向使用对象发出目标响应语句，解决了相关技术中的设备的语音交互方法存在由于所需的信息不完整导致的生成的交互语句不准确的问题，提升了生成的交互语句的准确性。

在一个示例性实施例中，对交互语音数据进行解析，得到预设对象属性的属性信息，包括：

S11，对交互语音数据进行声纹识别，得到与交互语音数据对应的目标声纹特征；

S12，根据目标声纹特征，确定预设对象属性的属性信息。

在本实施例中，可以通过对交互语音数据进行解析，得到预设对象属性的属性信息。可选地，可以先对交互语音数据进行声纹识别，得到与交互语音数据对应的目标声纹特征，再根据目标声纹特征，确定预设对象属性的属性信息。

可选地，上述对交互语音数据进行声纹识别，得到与交互语音数据对应的目标声纹特征的过程可以是：先根据交互语音数据中所包括的多个采样点的幅度值绘制与目标交互语句对应的声纹图，再根据绘制出的声纹图，确定与交互语音数据对应的目标声纹特征，也可以是其他的声纹识别方式。

可选地，上述根据目标声纹特征确定的预设对象属性的属性信息可以有多种，可以包括但不限于以下至少之一：对象年龄信息(预设对象属性包括对象年龄)，对象性别信息(预设对象属性包括对象性别)，还可以包括其他可以通过声纹特征识别的预设对象属性的属性信息。

需要说明的是，在根据交互语音数据中所包括的多个采样点的幅度值绘制与目标交互语句对应的声纹图的过程中，所绘制的声纹图并不是一个实际存在的图像，而是为了方便确定目标声纹特征的参考图像。

通过本实施例，基于交互语音数据的声纹特征确定预设对象属性的属性信息，可以提高预设对象属性的属性信息确定的准确性和便捷性。

在一个示例性实施例中，根据目标声纹特征，确定预设对象属性的属性信息，包括以下至少之一：

S21，根据目标声纹特征，确定使用对象的对象年龄信息，其中，预设对象属性包括对象年龄；

S22，根据目标声纹特征，确定使用对象的对象性别信息，其中，预设对象属性包括对象性别。

在本实施例中，可以根据目标声纹特征，确定预设对象属性的属性信息，上述预设对象属性的属性信息可以包括以下至少之一：使用对象的对象年龄信息，使用对象的对象年龄信息。

作为一种可选的实施方式，可以根据目标声纹特征，确定使用对象的对象年龄信息，上述预设对象属性包括对象年龄。可选地，可以预先设置有不同年龄对应的第一参考声纹特征，将目标声纹特征与第一参考声纹特征进行比对，将与目标声纹特征匹配的第一参考声纹特征对应的年龄信息，确定为使用对象的对象年龄信息，本实施例中对此不做限定。

作为另一种可选的实施方式，可以根据目标声纹特征，确定使用对象的对象性别信息，上述预设对象属性包括对象性别。可选地，可以预先设置有不同性别对应的第二参考声纹特征，将目标声纹特征与第二参考声纹特征进行比对，将与目标声纹特征匹配的第二参考声纹特征对应的性别信息，确定为使用对象的对象性别信息，本实施例中对此不做限定。

作为又一种可选的实施方式，可以根据目标声纹特征，确定使用对象的对象性别信息以及使用对象的对象年龄信息，上述预设对象属性包括对象性别以及对象年龄。

例如，当根据对象年龄信息确定使用对象为儿童时，可以生成以下的响应语句：

1)小朋友，今天是儿童节，祝你节日快乐。今天是个大晴天，快邀请小伙伴一起去玩耍；

2)你好，你不高兴了？让我给你讲个好听的故事吧；

3)你好，小明/晓月(用户自定义昵称)，今天这么高兴啊，你就是今天最靓的那个仔，替我赶走了外面讨厌的乌云。

当根据对象年龄信息以及对象性别信息确定使用对象为成年男性时，可以生成以下的响应语句：

1)先生，晚上好，今天累了吧，来首舒缓的音乐调节一下吧；

2)你好，先生，今天天气多云，下午的时候温度非常舒适，带我去体育场看世界杯；

3)你好，XX(用户自定义昵称)，我在。XX正式进军元宇宙，快来了解一下最新的科技资讯。

当根据对象年龄信息以及对象性别信息确定使用对象为成年女性时，可以生成以下的响应语句：

1)女士，是不是又为琐事不开心了？要不我替你烧水，一会儿做个美容按摩放松一下吧；

2)你好，女士，今天紫外线指数有点高，记得做好防晒措施哦；

3)你好，翠花(用户自定义昵称)，我看到今天的水质有点差，先帮你提前打开热水器的净化模式了。

当根据对象年龄信息以及对象性别信息确定使用对象为老年男性时，可以生成以下的响应语句：

1)老王(用户自定义昵称)，今天是冬至，气温又下降了，还有大风，外出记得保暖；

2)你好，老王(用户自定义昵称)，为什么唉声叹气呢？要不咱俩聊聊天。

当根据对象年龄信息以及对象性别信息确定使用对象为老年女性时，可以生成以下的响应语句：

1)老奶奶(用户自定义昵称)，我在，今天是春节，外面气温真暖和，带我出去散散步吧；

2)你好，老奶奶(用户自定义昵称)，今天湿度有点大，记得保护骨骼关节，定期给自己做个体检，保持健康体魄。

通过本实施例，根据语音数据的声纹特征确定使用对象的对象年龄信息或者对象性别信息，可以提升生成响应语句所使用的属性信息的全面性，进而提升响应语句生成的准确性。

在一个示例性实施例中，响应于目标交互请求，获取一组参考信息，包括：

S31，在一组参考信息包括目标设备所处的环境信息的情况下，根据目标设备的设备位置信息，获取目标设备当前所处的环境信息，得到目标环境信息。

在本实施例中，如果获取的一组参考信息包括目标设备所处的环境信息，服务器可以根据目标设备的设备位置信息，获取目标设备当前所处的环境信息，得到目标环境信息。目标设备的设备位置信息可以是目标设备的经纬度信息，也可以是目标设备所在的省份、城市、县城或者其他的行政区域类别。

可选地，上述根据目标设备的设备位置信息，获取目标设备当前所处的环境信息，得到目标环境信息的过程可以是：根据目标设备的设备位置信息查询与该位置信息匹配的环境信息，得到目标环境信息。例如，服务器在获取到了目标设备的设备位置信息之后，可以在互联网上查找与该位设备位置信息匹配的环境信息，得到目标环境信息。

通过本实施例，根据目标设备的设备位置信息，获取目标设备当前所处的环境信息，并基于设备当前所处的环境信息生成响应语句，可以提升响应语句生成的准确性。

在一个示例性实施例中，在根据目标设备的设备位置信息，获取目标设备当前所处的环境信息之前，上述方法还包括：

S41，在目标交互请求包含与目标设备对应的设备位置字段的情况下，从设备位置字段中，提取出目标设备的设备位置信息；或者，

S42，根据目标设备的设备标识，从预先保存的一组设备位置信息中获取目标设备的设备位置信息。

在本实施例中，在根据目标设备的设备位置信息，获取目标设备当前所处的环境信息之前，可以获取目标设备的设备位置信息。目标设备的设备位置信息可以是从目标交互请求中提取的，即，目标交互请求中携带有目标设备的设备位置信息，也可以是从预先保存的信息中获取的，比如，根据目标设备的设备标识，获取预存的目标设备的设备位置信息。

作为一种可选的实施方式，可以在目标交互请求包含与目标设备对应的设备位置字段的情况下，从设备位置字段中，提取出目标设备的设备位置信息。设备位置字段可以是预先约定的字段，其可以是目标交互请求中任一允许的字段，例如，目标交互请求的第一个字段，目标交互请求的最后一个字段，目标交互请求的中间某一个字段。设备位置字段的字段位数可以是固定的，本实施例中对于设备位置字段不做限定。

例如，当目标交互请求中的设备位置字段设置于目标交互请求的后5位时，可以在目标交互请求的后5位中，提取出目标设备的设备位置信息。

作为一种可选的实施方式，可以根据目标设备的设备标识，从预先保存的一组设备位置信息中获取目标设备的设备位置信息。可选地，上述从预先保存的一组设备位置信息中获取目标设备的设备位置信息的过程可以是：在预先保存的一组设备位置信息中，查找设备标识与目标设备的设备标识匹配的设备位置信息，并在查找到设备标识与目标设备的设备标识匹配的设备位置信息的情况下，将其确定为目标设备的设备位置信息。

可选地，也可以从预先保存的目标设备的设备信息中提取出目标设备的设备位置信息，即，设备位置信息按照设备进行分别保存，而不是保存为一组设备位置信息。

例如，当目标设备的设备标识为E时，若预先保存的一组设备位置信息中包括对应的设备标识为E的设备位置信息，则可以将其确定为目标设备的设备位置信息。

通过本实施例，采用多种方式确定目标设备的设备位置信息，可以提升设备位置信息确定的准确性，进而提升响应语句生成的准确性。

在一个示例性实施例中，响应于目标交互请求，获取一组参考信息，包括以下至少之一：

S51，在一组参考信息包括使用对象的健康状态信息的情况下，对目标对象图像进行图像识别，得到使用对象的健康状态信息，其中，目标对象图像携带在目标交互请求中，目标对象图像为目标设备采集到的、使用对象的对象图像；

S52，在一组参考信息包括使用对象的对象情感信息的情况下，对交互语音数据进行语音识别，得到使用对象的对象情感信息，其中，使用对象的对象情感信息用于指示使用对象当前所处的情感状态。

在本实施例中，在获取到目标交互请求之后，可以响应于目标交互请求，获取一组参考信息。可选地，上述一组参考信息可以包括以下至少之一：使用对象的健康状态信息、使用对象的对象情感信息。

作为一种可选的实施方式，可以在一组参考信息包括使用对象的健康状态信息的情况下，对目标对象图像进行图像识别，得到使用对象的健康状态信息，上述目标对象图像携带在目标交互请求中，目标对象图像为目标设备采集到的、使用对象的对象图像。

可选地，当使用对象发出目标交互语句之后，目标设备在采集目标交互语句的同时，可以通过目标设备上的图像采集部件对使用对象进行图像采集，得到目标采集图像。上述图像采集部件可以是以下至少之一：热成像传感器、摄像头，或者其他的图像采集部件。

作为另一种可选的实施方式，可以在一组参考信息包括使用对象的对象情感信息的情况下，对交互语音数据进行语音识别，得到使用对象的对象情感信息，上述使用对象的对象情感信息用于指示使用对象当前所处的情感状态。

可选地，上述对交互语音数据进行语音识别，得到使用对象的对象情感信息的过程可以是：先对交互语音数据进行声纹识别，得到与交互语音数据对应的目标声纹特征，再根据目标声纹特征，确定使用对象的对象情感信息。

可选地，上述根据目标声纹特征，确定使用对象的对象情感信息的过程与根据目标声纹特征，确定使用对象的对象年龄信息等的过程类似的，本实施例中对此不再赘述。此外，也可以对使用对象的声纹特征进行识别，得到使用对象的健康状态信息，对前述目标对象图像进行图像识别，得到使用对象的对象情感信息，基于图像识别健康状态和基于声纹识别情绪状态相对于其他方式，具有更好的识别效果。

通过本实施例，通过获取使用对象的健康状态信息和/或对象情感信息，以生成响应语句，可以提高响应语句生成的准确性。

在一个示例性实施例中，在对交互语音数据进行解析，得到预设对象属性的属性信息之后，上述方法还包括：

S61，将具有对应关系的使用对象和预设对象属性的属性信息进行保存。

在本实施例中，在得到预设对象属性的属性信息之后，可以将预设对象属性的属性信息进行保存。可选地，可以将具有对应关系的使用对象和预设对象属性的属性信息进行保存。例如，可以将使用对象，以及与使用对象对应的的对象年龄信息和对象性别信息进行保存，以便在后续进行交互语句响应时，可以通过查找预先保存的使用对象的对象信息，确定使用对象的对象年龄信息和对象性别信息。

可选地，对于一组参考信息中除了使用对象的预设对象属性的属性信息之外的信息，也可以进行保存。例如，由于在对使用对象的健康状态或者情绪状态分析时，可以能会用到历史的健康状态或者情绪状态，可以将使用对象的健康状态信息以及使用对象的对象情感信息进行保存。

可选地，由于使用对象的健康状态信息以及使用对象的对象情感信息等信息存在经常变化的可能性。因此，可以将使用对象的健康状态信息以及使用对象的对象情感信息保存一定的时间阈值，当超过该时间阈值之后，可以重新对当前接收的语音数据进行识别，得到使用对象的健康状态信息以及使用对象的对象情感信息，而不是用保存的历史信息。

通过本实施例，将具有对应关系的使用对象和预设对象属性的属性信息进行保存，可以保存的对象属性的属性信息进行完善，方便进行后续响应语句的生成，提高响应语句生成的及时性和准确性。

下面结合可选示例对本申请实施例中的设备的语音交互方法进行解释说明。目标设备为智能家电。

目前的语音交互方式，需要用户在App端注册声纹数据之后，才能根据用户发出的语音区分用户的身份，如成年男、成年女、老年男、老年女、儿童，这一过程的使用步骤繁琐，进而使得用户的使用成本过高。

本可选实例中提供了一种支持交互音频识别情感声纹并进行个性化回复的方法，在不增加其他检测单元的基础上，通过已联网的语音模块传输用户音频，由情感声纹服务分析声纹情感ID(Identifier，表示)，以及由推理服务结合模块位置生产的信息ID和情感ID进行推理计算，生成个性化回复，简化用户声纹识别的前置条件，更好的针对不同环境、不同情感、不同年龄的人群提供个性化的交互服务，极大地增强用户体验。

结合图3所示，本可选示例中的设备的语音交互方法的流程可以包括以下步骤：

步骤S302，用户通过App绑定语音模块，语音模块将模块的MAC(Medium AccessControl，媒体接入控制)信息、从App上获取的位置信息上传到推荐服务。

上述语音模块可以通过App进行绑定并上传用户的位置信息，并采集并传输用户交互音频。

步骤S304，用户对语音模块说出进行交互后，语音模块识别交互音频指令，将用户交互音频和模块MAC通过加密方式上传至情感声纹服务。上述情感声纹服务可以通过用户交互音频判断用户表达的情感和年龄

步骤S306，情感声纹服务解析交互音频，通过音频频率的波形判断用户的年龄阶段和情感状态，生成情感ID，将情感ID和模块MAC传递到推荐服务。

步骤S308，推荐服务基于模块的位置信息，分析用户所在位置的时间数据、水质数据、空气污染数据、温度数据、湿度数据、紫外线数据等信息ID，结合情感ID，生成不同交互音频下的主动提醒内容。

上述推理服务可以基于用户的位置信息，分析用户周边的时间数据、水质数据、空气污染数据、温度数据、湿度数据、紫外线数据等，生成个性化的推理服务。

结合图4所示，当家电已经有配置信息时，本可选示例中的设备的语音交互方法的流程可以包括以下步骤：

步骤S402，用户使用App绑定语音模块。

步骤S404，同步App的位置信息。

例如，可以将App的位置信息同步至语音模块。

步骤S406，上传模块的MAC信息、位置信息。

例如，可以将语音模块对应的MAC信息以及App的位置信息上传至推理服务。

步骤S408，分析模块位置对应的时间数据、水质数据、空气污染数据、温度数据、湿度数据、紫外线数据，生成信息ID。

步骤410，发话交互音频。

例如，用户可以向设备发出交互语音，设备可以通过设置的语音模块采集用户发出的交互语音。

步骤412，识别交互音频。

例如，可以通过语音模块进行识别用户发出的交互音频。

步骤414，启动计时器。

步骤416，将音频通过加密方式上传云端。

例如，语音模块可以将获取到的音频以加密方式上传到云端，以通过云端的情感声纹服务对音频进行解析。

步骤S418，完成ASR(Automatic Speech Recognition，自动语音识别)音频识别。例如，可以通过ASR完成对音频的识别。

步骤S420，向模块返回应答。例如，在完成对音频的识别之后，可以向语音模块返回应答。

步骤S422，用户的年龄阶段和情感状态。例如，可以通过ASR完成对音频的识别，得到用户的年龄阶段和情感状态。

步骤S424，上传情感ID和模块MAC。例如，可以将情感ID(即，用户的年龄阶段和情感状态)和模块MAC上传至推理服务。

步骤S426，结合信息ID和情感ID生成个性化回复，生成个性化话术ID。例如，推理服务可以基于模块的位置信息，分析用户所在位置的

时间数据、水质数据、空气污染数据、温度数据、湿度数据、紫外线数据等信息ID，结合情感ID，生成不同交互音频下的主动提醒内容。

步骤S428，发起个性化回复的TTS(Text To Speech，从文本到语音)请求。例如，语音模块可以向云端的推理服务发送个性化回复的TTS请求。

步骤S430，下放个性化回复的话术。例如，推理模块在接收到语音模块发送的TTS请求之后，可以向语音模块下放个性化回复的话术。

步骤S432，播报个性化回复话术。例如，语音模块在接收到下放的个性化回复的话术之后，可以向用户播报个性化回复话术。

步骤S434，返回个性化回复话术的播报结果。例如，语音模块在向用户播报个性化回复话术之后，可以向推理服务返回个性化回复话术的播报结果。

步骤S436，记录播报成功的个性化话术ID。例如，推理服务在接收到语音模块返回个性化回复话术的播报结果之后，可以记录播报成功的个性化话术ID。

步骤S438，将有效的个性化话术ID作为有效数据集进行持续性算法训练。

通过本实施例，在不增加其他检测单元的基础上，通过已联网的语音模块传输用户音频，由情感声纹服务分析声纹情感ID，以及由推理服务结合模块位置生产的信息ID和情感ID进行推理计算生成个性化回复，极大增强用户体验。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM(Read-Only Memory，只读存储器)/RAM(Random Access Memory，随机存取存储器)、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

根据本申请实施例的另一个方面，还提供了一种用于实施上述设备的语音交互方法的设备的语音交互装置。图5是根据本申请实施例的一种可选的设备的语音交互装置的结构框图，如图5所示，该装置可以包括：

第一获取单元502，用于获取目标设备发送的目标交互请求，其中，目标交互请求中携带有目标设备采集到的、与使用对象发出的目标交互语句对应的交互语音数据；

第二获取单元504，与第一获取单元502相连，用于响应于目标交互请求，获取一组参考信息，其中，一组参考信息是生成与目标交互语句对应的响应语句所使用的信息；

解析单元506，与第二获取单元504相连，用于在一组参考信息中使用对象的预设对象属性的属性信息为空的情况下，对交互语音数据进行解析，得到预设对象属性的属性信息；

更新单元508，与解析单元506相连，用于使用预设对象属性的属性信息更新一组参考信息，得到更新后的一组参考信息；

执行单元510，与更新单元508相连，用于使用更新后的一组参考信息生成与目标交互语句对应的目标响应语句，并控制目标设备向使用对象发出目标响应语句。

需要说明的是，该实施例中的第一获取单元502可以用于执行上述步骤S202，该实施例中的第二获取单元504可以用于执行上述步骤S204，该实施例中的解析单元506可以用于执行上述步骤S206，该实施例中的更新单元508可以用于执行上述步骤S208，该实施例中的执行单元510可以用于执行上述步骤S210。

通过上述模块，在一组参考信息中使用对象的预设对象属性的属性信息为空的情况下，对交互语音数据进行解析，得到预设对象属性的属性信息；使用预设对象属性的属性信息更新一组参考信息，得到更新后的一组参考信息；使用更新后的一组参考信息生成与目标交互语句对应的目标响应语句，并控制目标设备向使用对象发出目标响应语句，解决了相关技术中的设备的语音交互方法存在由于所需的信息不完整导致的生成的交互语句不准确的问题，提升了生成的交互语句的准确性。

在一个示例性实施例中，确定模块包括以下至少之一：

第一确定子模块，用于根据目标声纹特征，确定使用对象的对象年龄信息，其中，预设对象属性包括对象年龄；

第二确定子模块，用于根据目标声纹特征，确定使用对象的对象性别信息，其中，预设对象属性包括对象性别。

在一个示例性实施例中，确定模块包括以下至少之一：

在一个示例性实施例中，第二获取单元包括：

获取模块，用于在一组参考信息包括目标设备所处的环境信息的情况下，根据目标设备的设备位置信息，获取目标设备当前所处的环境信息，得到目标环境信息。

在一个示例性实施例中，上述装置还包括：

提取单元，用于在根据目标设备的设备位置信息，获取目标设备当前所处的环境信息之前，在目标交互请求包含与目标设备对应的设备位置字段的情况下，从设备位置字段中，提取出目标设备的设备位置信息；或者，

第三获取单元，用于根据目标设备的设备标识，从预先保存的一组设备位置信息中获取目标设备的设备位置信息。

在一个示例性实施例中，第二获取单元包括以下至少之一：

第二识别模块，用于在一组参考信息包括使用对象的健康状态信息的情况下，对目标对象图像进行图像识别，得到使用对象的健康状态信息，其中，目标对象图像携带在目标交互请求中，目标对象图像为目标设备采集到的、使用对象的对象图像；

第三识别模块，用于在一组参考信息包括使用对象的对象情感信息的情况下，对交互语音数据进行语音识别，得到使用对象的对象情感信息，其中，使用对象的对象情感信息用于指示使用对象当前所处的情感状态。

在一个示例性实施例中，上述装置还包括：

保存单元，用于在对交互语音数据进行解析，得到预设对象属性的属性信息之后，将具有对应关系的使用对象和预设对象属性的属性信息进行保存。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

根据本申请实施例的又一个方面，还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行本申请实施例中上述任一项设备的语音交互方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例中对此不再赘述。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

根据本申请实施例的又一个方面，还提供了一种用于实施上述设备的语音交互方法的电子装置，该电子装置可以是服务器、终端、或者其组合。

图6是根据本申请实施例的一种可选的电子装置的结构框图，如图6所示，包括处理器602、通信接口604、存储器606和通信总线608，其中，处理器602、通信接口604和存储器606通过通信总线608完成相互间的通信，其中，

存储器606，用于存储计算机程序；

处理器602，用于执行存储器606上所存放的计算机程序时，实现上述实施例的设备的语音交互方法。

可选地，在本实施例中，通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子装置与其他设备之间的通信。

上述的存储器可以包括RAM，也可以包括非易失性存储器(non-volatilememory)，例如，至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

作为一种示例，上述存储器606中可以但不限于包括上述设备的控制装置中的第一获取单元502、第二获取单元504、解析单元506、更新单元508以及执行单元510。此外，还可以包括但不限于上述设备的控制装置中的其他模块单元，本示例中不再赘述。

上述处理器可以是通用处理器，可以包含但不限于：CPU(Central ProcessingUnit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(DigitalSignal Processing，数字信号处理器)、ASIC(Application Specific IntegratedCircuit，专用集成电路)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图6所示的结构仅为示意，实施上述设备的语音交互方法的设备可以是终端设备，该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图6其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图6中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图6所示的不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、ROM、RAM、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种设备的语音交互方法，其特征在于，包括：

获取目标设备发送的目标交互请求，其中，所述目标交互请求中携带有所述目标设备采集到的、与使用对象发出的目标交互语句对应的交互语音数据；

响应于所述目标交互请求，获取一组参考信息，其中，所述一组参考信息是生成与所述目标交互语句对应的响应语句所使用的信息；

在所述一组参考信息中所述使用对象的预设对象属性的属性信息为空的情况下，对所述交互语音数据进行解析，得到所述预设对象属性的属性信息；

使用所述预设对象属性的属性信息更新所述一组参考信息，得到更新后的所述一组参考信息；

使用更新后的所述一组参考信息生成与所述目标交互语句对应的目标响应语句，并控制所述目标设备向所述使用对象发出所述目标响应语句。

2.根据权利要求1所述的方法，其特征在于，所述对所述交互语音数据进行解析，得到所述预设对象属性的属性信息，包括：

对所述交互语音数据进行声纹识别，得到与所述交互语音数据对应的目标声纹特征；

根据所述目标声纹特征，确定所述预设对象属性的属性信息。

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标声纹特征，确定所述预设对象属性的属性信息，包括以下至少之一：

根据所述目标声纹特征，确定所述使用对象的对象年龄信息，其中，所述预设对象属性包括对象年龄；

根据所述目标声纹特征，确定所述使用对象的对象性别信息，其中，所述预设对象属性包括对象性别。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述响应于所述目标交互请求，获取一组参考信息，包括：

在所述一组参考信息包括所述目标设备所处的环境信息的情况下，根据所述目标设备的设备位置信息，获取所述目标设备当前所处的环境信息，得到目标环境信息。

5.根据权利要求4所述的方法，其特征在于，在所述根据所述目标设备的设备位置信息，获取所述目标设备当前所处的环境信息之前，所述方法还包括：

在所述目标交互请求包含与所述目标设备对应的设备位置字段的情况下，从所述设备位置字段中，提取出所述目标设备的设备位置信息；或者，

根据所述目标设备的设备标识，从预先保存的一组设备位置信息中获取所述目标设备的设备位置信息。

6.根据权利要求1至3任一项所述的方法，其特征在于，所述响应于所述目标交互请求，获取一组参考信息，包括以下至少之一：

在所述一组参考信息包括所述使用对象的健康状态信息的情况下，对目标对象图像进行图像识别，得到所述使用对象的健康状态信息，其中，所述目标对象图像携带在所述目标交互请求中，所述目标对象图像为所述目标设备采集到的、所述使用对象的对象图像；

在所述一组参考信息包括所述使用对象的对象情感信息的情况下，对所述交互语音数据进行语音识别，得到所述使用对象的对象情感信息，其中，所述使用对象的对象情感信息用于指示所述使用对象当前所处的情感状态。

7.根据权利要求1至3中任一项所述的方法，其特征在于，在所述对所述交互语音数据进行解析，得到所述预设对象属性的属性信息之后，所述方法还包括：

将具有对应关系的所述使用对象和所述预设对象属性的属性信息进行保存。

8.一种设备的语音交互装置，其特征在于，包括：

第一获取单元，用于获取目标设备发送的目标交互请求，其中，所述目标交互请求中携带有所述目标设备采集到的、与使用对象发出的目标交互语句对应的交互语音数据；

第二获取单元，用于响应于所述目标交互请求，获取一组参考信息，其中，所述一组参考信息是生成与所述目标交互语句对应的响应语句所使用的信息；

解析单元，用于在所述一组参考信息中所述使用对象的预设对象属性的属性信息为空的情况下，对所述交互语音数据进行解析，得到所述预设对象属性的属性信息；

更新单元，用于使用所述预设对象属性的属性信息更新所述一组参考信息，得到更新后的所述一组参考信息；

执行单元，用于使用更新后的所述一组参考信息生成与所述目标交互语句对应的目标响应语句，并控制所述目标设备向所述使用对象发出所述目标响应语句。

9.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行权利要求1至7中任一项所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行权利要求1至7中任一项所述的方法。