CN110189754A

CN110189754A - 语音交互方法、装置、电子设备及存储介质

Info

Publication number: CN110189754A
Application number: CN201910459310.2A
Authority: CN
Inventors: 陈姿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-08-30

Abstract

本发明公开了一种语音交互方法、装置、电子设备及存储介质，属于语音技术领域。所述方法包括：对用户的语音指令进行分析，得到语音指令的指令信息、用户的用户画像信息和情绪信息中至少一项；基于语音指令的指令信息、用户的用户画像信息和情绪信息中至少一项，获取目标声音属性信息；提供具有目标声音属性信息的目标语音响应。本发明通过对用户的语音指令进行分析，得到语音指令的指令信息、用户画像信息和情绪信息中至少一项，基于至少一项信息来确定以怎样的声音的语音响应来对语音指令进行反馈，该语音响应的声音属性不固定，和语音指令的关联性较强，为语音交互过程增加了趣味性、智能性和多样性，响应效果较好。

Description

语音交互方法、装置、电子设备及存储介质

技术领域

本发明涉及语音技术领域，特别涉及一种语音交互方法、装置、电子设备及存储介质。

背景技术

随着语音技术的发展，语音识别技术和语音合成技术应用越来越广泛，为了简化用户的手动操作，通常利用该语音识别技术和语音合成技术来实现人机语音交互。

在语音交互过程中，利用语音识别技术，可以对用户发出的语音指令进行识别，确定所需执行的操作，可以利用语音合成技术，将需要响应的文本内容转换为语音响应，以语音的形式进行响应。但目前语音响应的声音属性信息固定、单一，趣味性差，响应效果差。

发明内容

本发明实施例提供了一种语音交互方法、装置、电子设备及存储介质，可以解决相关技术中趣味性差和响应效果差的问题。所述技术方案如下：

一方面，提供了一种语音交互方法，所述方法包括：

对用户的语音指令进行分析，得到所述语音指令的指令信息、所述用户的用户画像信息和情绪信息中至少一项；

基于所述语音指令的指令信息、所述用户的用户画像信息和情绪信息中至少一项，获取目标声音属性信息；

提供具有所述目标声音属性信息的目标语音响应。

一方面，提供了一种语音交互装置，所述装置包括：

分析模块，用于对用户的语音指令进行分析，得到所述语音指令的指令信息、所述用户的用户画像信息和情绪信息中至少一项；

获取模块，用于基于所述语音指令的指令信息、所述用户的用户画像信息和情绪信息中至少一项，获取目标声音属性信息；

提供模块，用于提供具有所述目标声音属性信息的目标语音响应。

在一种可能实现方式中，所述获取模块用于：

基于所述语音指令的指令信息、所述用户的用户画像信息和情绪信息中至少一项，从多个声音属性信息中，选择多个候选声音属性信息；

基于所述语音指令的指令信息、所述用户的用户画像信息和情绪信息中至少一项，获取每个候选声音属性信息与所述语音指令的关联程度；

将关联程度最大的候选声音属性信息确定为所述目标声音属性信息。

在一种可能实现方式中，所述获取模块用于将所述多个声音属性信息中，所述语音指令的指令信息、所述用户的用户画像信息和情绪信息中至少一项中每一项信息对应的声音属性信息确定为候选声音属性信息。

在一种可能实现方式中，所述获取模块用于基于所述语音指令的指令信息、所述用户的用户画像信息和情绪信息中至少一项中每一项信息的权重，对所述每个候选声音属性信息与所述每一项信息的关联程度进行加权求和，得到每个候选声音属性信息与所述语音指令的关联程度。

在一种可能实现方式中，所述获取模块用于将所述语音指令的指令信息、所述用户的用户画像信息和情绪信息中至少一项与声音属性信息库进行匹配，获取匹配的多个候选声音属性信息。

在一种可能实现方式中，所述获取模块用于：

基于所述语音指令的指令信息、所述用户的用户画像信息和情绪信息中至少一项，获取多个声音属性信息中每个声音属性信息与所述语音指令的关联程度；

将关联程度最大的声音属性信息确定为所述目标声音属性信息。

在一种可能实现方式中，所述分析模块还用于执行下述至少一项：

根据所述语音指令的发送地址或当前设备的地址，获取所述用户的地域信息，将所述地域信息确定为所述用户的用户画像信息；

根据所述用户的用户账号，将所述用户账号所关联的信息确定为所述用户的用户画像信息。

在一种可能实现方式中，所述获取模块用于调用声音属性信息获取模型，将所述语音指令的指令信息、所述用户的用户画像信息和情绪信息中至少一项输入所述声音属性信息获取模型中，输出目标声音属性信息。

在一种可能实现方式中，所述装置还包括：

训练模块，用于将所述语音指令的指令信息、所述用户的用户画像信息和情绪信息中至少一项作为训练样本，对所述声音属性信息获取模型进行训练，得到更新后的声音属性信息获取模型。

在一种可能实现方式中，所述获取模块还用于根据所述语音指令的指令信息，获取所述语音指令对应的资源和操作指令；

在一种可能实现方式中，所述装置还包括下述任一项：

发送模块，用于将所述语音指令对应的资源和操作指令发送至所述用户所在终端，由所述用户所在终端执行所述操作指令，对所述资源进行显示或播放；

执行模块，用于执行所述操作指令，对所述资源进行显示或播放。

一方面，提供了一种电子设备，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现所述语音交互方法所执行的操作。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现所述语音交互方法所执行的操作。

本发明实施例对用户的语音指令进行分析，得到语音指令的指令信息、用户画像信息和情绪信息中至少一项，从而基于该至少一项信息来确定以怎样的声音的语音响应来对语音指令进行反馈，该语音响应的声音属性不固定，而是和语音指令的一项或多项信息相关，二者的关联性较强，为语音交互过程增加了趣味性、智能性和多样性，响应效果较好。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1-1是本发明实施例提供的一种语音交互方法的实施环境；

图1-2是本发明实施例提供的一种语音交互方法的实施环境；

图1-3是本发明实施例提供的一种语音交互方法的实施环境；

图2是本发明实施例提供的一种语音交互方法的流程图；

图3是本发明实施例提供的一种视频播放应用的界面示意图；

图4是本发明实施例提供的一种视频资源显示界面的示意图；

图5是本发明实施例提供的一种语音交互方法的流程图；

图6是本发明实施例提供的一种语音交互方法的流程组成部分的示意图；

图7是本发明实施例提供的一种语音交互方法的流程图；

图8是本发明实施例提供的一种语音交互装置的结构示意图；

图9是本发明实施例提供的一种终端的结构示意图；

图10是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1-1、图1-2和图1-3均是本发明实施例提供的一种语音交互方法的实施环境，该实施环境中可以包括一个或多个电子设备，该电子设备可以为终端，也可以为服务器。

在一种可能实现方式中，参见图1-1，该实施环境中可以包括终端101，该终端101可以具有语音采集、语音识别和语音播放功能，该终端101可以采集用户的语音指令，对语音识别进行分析，并以语音的形式向用户反馈。在另一种可能实现方式中，参见图1-2，该实施环境中可以包括服务器102，该服务器102可以执行上述语音交互方法所需的步骤。在再一种可能实现方式中，参见图1-3，该实施环境中可以包括终端101和服务器102。终端101和服务器102可以通过网络进行连接，终端101可以向服务器102发送请求，由服务器102为终端101提供数据服务。本发明实施例对具体采用哪种实施环境不作限定。

图2是本发明实施例提供的一种语音交互方法的流程图，该方法可以应用于电子设备中，该电子设备可以为终端，也可以为服务器，在本实施例中以该语音交互方法应用于终端为例进行说明。参见图2，该方法可以包括以下步骤：

201、终端对用户的语音指令进行分析，得到该语音指令的指令信息、该用户的用户画像信息和情绪信息中至少一项。

在本发明实施例中，终端可以具有语音采集功能和语音播放功能，终端可以对其周围一定范围内的语音进行采集，该声音可以是人发出的声音，也可以是环境中的其它声音，如噪声、音乐等。在本发明实施例中，该语音具体可以表现为语音指令和语音响应。

其中，终端可以以语音的方式与人进行语音交互，语音交互是指在用户和机器之间采用语音的方式进行交互的技术过程。对于终端采集或播放的语音，语音指令可以是用户发出的指示终端执行命令的语音。当用户想要终端执行某项命令时，可以对终端发出语音指令，终端接收到该语音指令，可以根据该语音指令，执行对应的命令。该语音响应可以为终端反馈给用户的语音，为语音指令的响应，该语音响应用于告知用户终端正在或已经根据语音指令执行相应的命令。

在本发明实施例中，用户可以发出语音指令，终端接收到该语音指令时，可以对其进行分析，以确定要采用具有哪种声音属性信息的声音来响应该语音指令。该步骤201即为对语音指令进行分析，得到用于确定将要采用的目标声音属性信息的各种考虑因素的过程。当然，该语音指令也可以由其他设备发送至该终端，该终端接收到语音指令时，可以进行上述分析步骤。

在一种可能实现方式中，该考虑因素可以为该语音指令的指令信息、该用户的用户画像信息和情绪信息中至少一项。也即是，考虑因素可以为上述三种信息，终端可以基于其中一种信息来确定目标声音属性信息，也可以基于其中两种信息来确定目标声音属性信息，还可以基于该三种信息来确定目标声音属性信息，具体基于哪一种或哪几种信息来确定目标声音属性信息可以由相关技术人员根据需求进行设置，本发明实施例对此不作限定。

其中，指令信息可以为该语音指令的内容，该内容可以为语音指令的全部内容，也可以为部分内容。例如，终端可以对该语音指令进行语音识别，得到该语音指令的全部内容，将全部内容作为指令信息。又例如，终端在识别得到全部内容后，还可以对该全部内容进行关键字提取，得到该语音指令的部分内容，该部分内容即为提取的关键字，从而将该部分内容(提取的关键字)作为指令信息。例如，用户可以发出语音指令“我要看巴啦啦小魔仙”，其中，该全部内容可以为“我要看巴啦啦小魔仙”，可以将其作为指令信息。也可以提取关键字“巴啦啦小魔仙”，将其作为指令信息。如图3所示，用户在视频播放应用中发出语音指令，终端采集到该语音指令，可以执行该步骤201以及后续步骤。

该用户的用户画像信息可以为该用户的年龄、性别、地域或方言等信息，该用户画像信息可以包括多种信息，具体为哪些信息可以由相关技术人员根据需求进行设置，本发明实施例在此不一一列举，也不对此进行限定。例如，用户为一个8岁的小女孩，该小女孩输入上述语音指令，终端可以对该语音指令进行声纹识别，得到用户画像信息为：7-10岁，女。当然，如果用户使用粤语发出语音指令，终端也可以得到用户画像信息为：粤语。

该用户的情绪信息用于表示用户发出语音指令时的情绪，例如，伤心、开心、温柔、狂躁、温和、急切或尖锐等情绪，根据该用户的情绪信息以相同或相反的情绪来响应该用户则可以达到很好的响应效果。该情绪信息具体包括哪些可以由相关技术人员根据需求进行设置，本发明实施例对此不作限定。例如，如果用户用尖锐的声音发出语音指令，终端可以对语音指令进行情绪分析，获取到情绪信息为：尖锐。如果用户温和地发出语音指令，则可以获取情绪信息为：温和。

在一个具体的可能实施例中，该终端可以包括多个接口，每个接口用于获取一种信息，终端可以将该语音指令输入该多个接口中对该语音指令进行分析，从而从该多个接口可以获取得到多种信息。当然，该终端也可以包括一个接口，该一个接口用于获取一种信息或多种信息，终端可以将语音指令输入该接口中对语音指令进行分析，得到上述一种信息或多种信息。在另一个具体的可能实施例中，该多个接口或一个接口还可以由服务器提供，该终端可以从服务器处获取上述一种信息或多种信息。

202、终端基于该语音指令的指令信息、该用户的用户画像信息和情绪信息中至少一项，从多个声音属性信息中，选择多个候选声音属性信息。

在该终端中可以预先设置有多个声音属性信息，终端获取到各种考虑因素后，也即是，获取到该语音指令的指令信息、用户的用户画像信息和情绪信息中至少一项后，可以基于该至少一项信息来确定目标声音属性信息，在确定目标声音属性信息时，可以先从多个声音属性信息中选择多个候选声音属性信息，再从候选声音属性信息中进一步选择，以减少计算量。

在一种可能实现方式中，上述至少一项信息中每一项信息均可以与声音属性信息具有对应关系，终端从多个声音属性信息中选择多个候选声音属性信息时，可以选择该至少一项信息对应的声音属性信息，将其作为候选声音属性信息。具体地，终端可以将该语音指令的指令信息、该用户的用户画像信息和情绪信息中至少一项中每一项信息对应的声音属性信息确定为候选声音属性信息。

其中，每一项信息可以对应于一种声音属性信息，也可以对应于多种声音属性信息，也即是，每一项信息可以对应于至少一种声音属性信息。例如，指令信息“巴啦啦小魔仙”可以对应于“小魔仙”的声音属性信息。又例如，情绪信息“温和”可以对应于“唐僧”的声音属性信息，又例如，指令信息“新闻联播”可以对应于新闻主播的声音属性信息。用户画像信息“粤语”可以对应于粤语的声音属性信息，用户画像信息“女”也可以对应于女声的声音属性信息。

在一个具体的可能实施例中，该选择候选声音属性信息的过程可以通过与声音属性信息库匹配的方式实现，在该终端中可以预先设置有声音属性信息库，该声音属性信息库中可以包括多个声音属性信息。终端可以将该语音指令的指令信息、该用户的用户画像信息和情绪信息中至少一项与声音属性信息库进行匹配，获取匹配的多个候选声音属性信息。终端可以将该至少一项信息与声音属性信息库进行匹配，从而将每一项信息匹配的声音属性信息均作为候选声音属性信息。

203、终端基于该语音指令的指令信息、该用户的用户画像信息和情绪信息中至少一项，获取每个候选声音属性信息与该语音指令的关联程度。

终端在获取到多个候选声音属性信息后，可以综合考虑该至少一项信息，来从该多个候选声音属性信息中选出最合适的一个候选声音属性信息作为目标声音属性信息。其中，来判定哪个候选声音属性信息最合适可以通过获取每个候选声音属性信息与语音指令的关联程度来度量。

在一种可能实现方式中，可以为每一项信息设置有权重，该权重不同时，综合考虑多项信息时，候选声音属性信息与语音指令的关联程度则可能不同。终端基于该语音指令的指令信息、该用户的用户画像信息和情绪信息中至少一项中每一项信息的权重，对该每个候选声音属性信息与该每一项信息的关联程度进行加权求和，得到每个候选声音属性信息与该语音指令的关联程度。

具体地，终端可以先获取该每个候选声音属性信息与该每一项信息的关联程度和权重，再基于该权重，进行上述加权求和的步骤。在一种可能实现方式中，该每一项信息的权重可以相同，也可以不同，在一个具体示例中，该指令信息的权重可以大于该情绪信息的权重，该情绪信息的权重可以大于该用户画像信息的权重。这样指令信息的优先级要高于情绪信息的优先级，情绪信息的优先级要高于用户画像信息，最终选择的目标声音属性信息也更贴近于优先级高的，也即是，权重大的。当然，该每一项信息的权重可以由相关技术人员根据需求进行设置，本发明实施例对此不作限定。

204、终端将关联程度最大的候选声音属性信息确定为目标声音属性信息。

终端获取到每个候选声音属性信息与语音指令的关联程度，则可以将关联程度最大的候选声音属性信息作为目标声音属性信息，该目标声音属性信息与语音指令的关联程度最大，以该目标声音属性信息来响应语音指令，增加了趣味性，响应效果更好。

在一种可能实现方式中，终端可以基于多个候选声音属性信息与语音指令的关联程度按照从大到小的顺序进行排序，从而将排序在第一位的候选声音属性信息确定为目标声音属性信息，当然，也可以基于该多个候选声音属性信息与语音指令的关联程度按照从小到大的顺序进行排序，从而将排序在最后一位的候选声音属性信息确定为目标声音属性信息。

例如，以根据上述三种信息确定目标声音属性信息为例进行说明，8岁的小女孩发出语音指令“我要看巴啦啦小魔仙”，终端执行上该语音指令的指令信息“巴啦啦小魔仙”，用户画像信息“女”、“7-10岁”，情绪信息“无”。在步骤202中，终端可以获取到三个候选声音属性信息:“小魔仙”的声音属性信息，女声的声音属性信息和小孩子的声音属性信息。当然，该“小魔仙”的声音属性信息也可以是女声的声音属性信息，从而在后续计算关联程度时，该“小魔仙”的声音属性信息与用户画像信息“女”和指令信息“小魔仙”的关联程度均可以比较大。也即是，每一项信息与声音属性信息的对应关系可以不是一对一的对应关系，也可以是一对多的对应关系，此类情况可以由相关技术人员根据需求进行设置，在获取关联程度时，计算方式也可以由相关技术人员根据需求进行设置，本发明实施例对此不作限定。

比如，以该指令信息的权重可以为0.7，情绪信息的权重可以为0.2，用户画像信息的权重可以为0.1为例，以“小魔仙”的声音属性信息为例，它与指令信息的关联程度为1，与情绪信息的关联程度为0，与用户画像信息的关联程度为0.7，则可以获取到该“小魔仙”的声音属性信息与语音指令的关联程度为1x0.7+0x0.2+0.7x0.1，也即是，0.77。同理地，其他候选声音属性信息的计算过程可以同理，得到的关联程度可以均小于该“小魔仙”的声音属性信息，从而终端可以获取该“小魔仙”的声音属性信息确定为目标声音属性信息。上述数值和计算方式均为一种示例性说明，并不对每一项信息的权重以及关联程度的获取方式造成限定。

需要说明的是，该步骤202至步骤204是基于该语音指令的指令信息、该用户的用户画像信息和情绪信息中至少一项，获取目标声音属性信息的过程，上述仅以终端先从多个声音属性信息中进行筛选，得到多个候选声音属性信息后，再进一步从多个候选声音属性信息中选择与语音指令的关联程度最大的作为目标声音属性信息为例，该过程还可以通过其他方式实现，在另一种可能实现方式中，终端可以基于该语音指令的指令信息、该用户的用户画像信息和情绪信息中至少一项，获取多个声音属性信息中每个声音属性信息与该语音指令的关联程度；将关联程度最大的声音属性信息确定为该目标声音属性信息。也即是，终端可以直接在多个声音属性信息中挑选关联程度最大的声音属性信息作为目标声音属性信息，而无需进行两步筛选，本发明实施例对具体采用哪种可能实现方式不作限定。

在一种可能实现方式中，上述用户画像信息除了对语音指令进行分析得到之外，还可以通过下述方式一和方式二中至少一种来获取得到，终端可以采用上述分析得到的方式以及下述两种方式中至少一项来实现用户画像信息的获取过程。

方式一、终端根据该语音指令的发送地址或当前设备的地址，获取该用户的地域信息，将该地域信息确定为该用户的用户画像信息。

在该方式一中，该语音指令可以为其他设备发送至该终端，也可能是自身采集到的，因而，终端可以根据该语音指令的发送地址或当前设备的地址，得到地域信息，例如，该发送地址或地址可以为互联网协议(Internet Protocol，IP)地址，终端可以根据该IP地址来分析得到地域信息。

方式二、终端根据该用户的用户账号，将该用户账号所关联的信息确定为该用户的用户画像信息。

在该方式二中，该用户的用户账号可以关联有该用户的信息，终端可以获取该用户账号所关联的信息作为该用户的用户画像信息。

在一种可能实现方式中，上述获取目标声音属性信息的过程也可以通过训练好的声音属性信息获取模型实现，具体地，终端可以调用声音属性信息获取模型，将该语音指令的指令信息、该用户的用户画像信息和情绪信息中至少一项输入该声音属性信息获取模型中，输出目标声音属性信息。该声音属性信息获取模型可以基于多个语音指令的指令信息、多个用户的用户画像信息和情绪信息中至少一项训练得到。

在一个具体的可能实施例中，终端还可以将步骤一分析到的语音指令的各项信息作为训练样本，以更新该声音属性信息获取模型，具体地，终端可以将该语音指令的指令信息、该用户的用户画像信息和情绪信息中至少一项作为训练样本，对该声音属性信息获取模型进行训练，得到更新后的声音属性信息获取模型。

205、终端提供具有该目标声音属性信息的目标语音响应。

终端确定了目标声音属性信息后，即可使用具有该目标声音属性信息的声音来对语音指令进行反馈或响应。因而，终端可以执行该步骤205，提供具有该目标声音属性信息的目标语音响应。

在一种可能实现方式中，终端可以基于该目标声音属性信息和该语音指令对应的响应信息，生成该语音指令对应的目标语音响应。也即是，终端可以基于该目标声音属性信息，将所述语音指令对应的响应信息转换为目标语音响应。终端在生成目标语音响应后，可以播放该目标语音响应，从而实现与用户的语音交互。

例如，上述示例中，用户发出的语音指令为“我要看巴啦啦小魔仙”，则终端可以获取“小魔仙”的声音属性信息，提供具有该“小魔仙”的声音属性信息的目标语音响应。也即是，用“小魔仙”的声音回复“为你找到巴啦啦小魔仙的相关内容”。又例如，如果一个小男孩用尖锐的声音发出语音指令“我要看西游记”，则终端可以用孙悟空的声音回复“为你找到西游记的相关内容”。又例如，如果一个小男孩用温和的声音发出语音指令“我要看西游记”，则终端可以用唐僧的声音回复“为你找到西游记的相关内容”。再例如，如果一个小男孩用非常机械的声音输入语音指令“我用看外星人”，终端可以以机器人的声音来回答“为您找到影片外星人”，如果一个老年人输入“我要看新闻联播”，终端可以以新闻主播的声音回答“为您播放新闻联播”。当广东的用户用粤语输入语音指令，终端则可以用粤语回复，从而增加了语音交互的趣味性、智能性和个性化。

在一个具体的可能实施例中，终端可以根据该语音指令的指令信息，获取该语音指令对应的资源和操作指令，从而执行该操作指令，对该资源进行显示或播放。例如，上述示例中，用户发出的语音指令为“我要看巴啦啦小魔仙”，则终端可以获取“巴啦啦小魔仙”的视频资源和界面跳转指令，从而如图4所示，执行界面跳转指令，将界面跳转至视频资源显示界面，并在该界面中显示“巴啦啦小魔仙”的视频资源。

在此以图5所示的流程图来对上述语音交互方法的流程进行示例性说明，在该示例中，以终端获取三项信息为例进行说明，参见图5，用户可以输入语音指令，从而终端可以根据语音输入分析用户画像(也即是用户画像信息)，提取用户的情绪标签(也即是情绪信息)，提取语音指令相关特性标签(也即是指令信息)，然后根据语音输入标签(也即是上述三种信息的标签)进行从语音合成(Text-To-Speech，TTS)库中进行匹配搜索，从而返回匹配的TTS。在此使用TTS来表示声音属性信息。

如图6所示，该过程可以划分为五个部分：结果展示、行为日志、特征工程、召回和排序。其中，结果展示部分用于展示最终确定的推荐TTS，其中，该推荐TTS也即是指上述目标声音属性信息，因而，该结果展示部分也即是用于提供目标语音响应。行为日志部分用于将对用户输入的语音指令进行ETL(抽取(Extract)、转换(transform)和加载(load))处理。进行上述ETL处理也即是将上述指令信息、用户画像信息和情绪信息存储为行为日志的过程。该特征工程部分用于对语音指令进行分析得到上述三项信息，该三项信息即为对语音指令进行处理得到的特征，该特征提取的过程可以人工或由设备自动进行，当然，还可以将这些特征作为输入(训练样本)，对声音属性信息获取模型进行训练和更新。该召回部分对应于步骤202，用于基于语音指令的各项信息，利用数据工程和算法的方式，从TTS库中锁定特定的候选集合，该锁定特定的候选集合也即是指选择多个候选声音属性信息的过程，完成了推荐列表的初步筛选，其在一定程度上决定了后续排序阶段的效率和推荐结果(目标声音属性信息)的优劣。排序部分用于对上述候选集合进行更精细化的打分和排序，从而获得一份最终的推荐TTS(目标声音属性信息)，该排序部分对应于步骤203和步骤204。

需要说明的是，上述仅以终端接收语音指令，执行分析步骤、获取目标声音属性信息的步骤以及提供目标语音响应的步骤为例进行说明，在一种可能实现方式中，该多个步骤还可以均由服务器来执行，也即是，上述步骤201至步骤205可以由终端单独执行，也可以由服务器单独执行，在由服务器单独执行的情况中，终端可以在接收到语音指令后，向服务器发送该语音指令，由服务器执行步骤201至步骤205，将目标语音响应发送至该终端，该终端可以接收并播放该目标语音响应。

例如，如图7所示，用户可以输入语音指令，终端可以接收该语音指令，并将该语音指令上传至后台服务器端，从而服务器可以通过用户上传的IP地址，获取用户当前的地域位置，并可以通过接口提供设备提供的各个接口，对语音指令进行分析，具体地，可以对语音指令进行声纹识别得到用户的年龄、性别特征(用户画像信息)，可以通过方言识别用户所说的方言(用户画像信息)，可以通过情绪分析接口获取当前用户的情绪信息，通过对语音指令的识别提取得到关键字特征(指令信息)，服务器可以通过提取到的特征(三项信息)进行加权排序，该加权排序过程即可以包括根据特征去搜索TTS库匹配，从而根据推荐算法返回最佳匹配TTS以及对应语音识别意图，其中，该最佳匹配TTS是指目标声音属性信息，对应语音识别意图是指该语音指令对应的资源，服务器可以根据返回的对应语音识别意图转化成对应的操作指令，例如，如果返回的是视频资源，则可以转化为界面跳转指令，可以将界面跳转至视频资源显示界面，如果返回的是天气情况，则可以将界面跳转至天气显示界面。服务器可以返回对应指令以及回复语TTS至终端，该对应指令即为上述操作指令，该回复语TTS即为目标语音响应，终端可以通过匹配的TTS语音输出回复语，并进行相应的操作。也即是，播放目标语音响应，执行操作指令。

在另一种可能实现方式，还可以由终端执行该多个步骤中的一个或多个步骤，由服务器执行另外的一个或多个步骤，例如，终端可以在接收到语音指令后，执行步骤201的分析步骤，由服务器执行步骤202至步骤205，将生成的目标语音响应提供给该终端，该终端还可以对该目标语音响应进行播放。又例如，终端可以在接收到语音指令后，执行步骤201至步骤204所示的分析步骤和获取目标声音属性信息的步骤，从而将目标声音属性信息发送至服务器，由服务器执行步骤205，为该终端提供目标语音响应。再例如，该终端还可以在接收到语音指令后，将其发送至服务器，由服务器执行步骤201至步骤204，确定目标声音属性信息，将其发送至终端，从而终端执行步骤205。具体该多个步骤由谁执行，终端和服务器中由谁来执行主要计算步骤，均可以由相关技术人员根据需求和终端或服务器的运算能力来设置，本发明实施例对此不作限定。

本发明实施例通过对用户的语音指令进行分析，得到语音指令的指令信息、用户画像信息和情绪信息中至少一项，从而基于该至少一项信息来确定以怎样的声音的语音响应来对语音指令进行反馈，该语音响应的声音属性不固定，而是和语音指令的一项或多项信息相关，二者的关联性较强，为语音交互过程增加了趣味性、智能性和多样性，响应效果较好。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

图8是本发明实施例提供的一种语音交互装置的结构示意图，参见图8，该装置可以包括：

分析模块801，用于对用户的语音指令进行分析，得到该语音指令的指令信息、该用户的用户画像信息和情绪信息中至少一项；

获取模块802，用于基于该语音指令的指令信息、该用户的用户画像信息和情绪信息中至少一项，获取目标声音属性信息；

提供模块803，用于提供具有所述目标声音属性信息的目标语音响应。

在一种可能实现方式中，该获取模块802用于：

基于该语音指令的指令信息、该用户的用户画像信息和情绪信息中至少一项，从多个声音属性信息中，选择多个候选声音属性信息；

基于该语音指令的指令信息、该用户的用户画像信息和情绪信息中至少一项，获取每个候选声音属性信息与该语音指令的关联程度；

将关联程度最大的候选声音属性信息确定为该目标声音属性信息。

在一种可能实现方式中，该获取模块802用于将该多个声音属性信息中，该语音指令的指令信息、该用户的用户画像信息和情绪信息中至少一项中每一项信息对应的声音属性信息确定为候选声音属性信息。

在一种可能实现方式中，该获取模块802用于基于该语音指令的指令信息、该用户的用户画像信息和情绪信息中至少一项中每一项信息的权重，对该每个候选声音属性信息与该每一项信息的关联程度进行加权求和，得到每个候选声音属性信息与该语音指令的关联程度。

在一种可能实现方式中，该获取模块802用于将该语音指令的指令信息、该用户的用户画像信息和情绪信息中至少一项与声音属性信息库进行匹配，获取匹配的多个候选声音属性信息。

在一种可能实现方式中，该获取模块802用于：

基于该语音指令的指令信息、该用户的用户画像信息和情绪信息中至少一项，获取多个声音属性信息中每个声音属性信息与该语音指令的关联程度；

将关联程度最大的声音属性信息确定为该目标声音属性信息。

在一种可能实现方式中，该分析模块801还用于执行下述至少一项：

根据该语音指令的发送地址或当前设备的地址，获取该用户的地域信息，将该地域信息确定为该用户的用户画像信息；

根据该用户的用户账号，将该用户账号所关联的信息确定为该用户的用户画像信息。

在一种可能实现方式中，该获取模块802用于调用声音属性信息获取模型，将该语音指令的指令信息、该用户的用户画像信息和情绪信息中至少一项输入该声音属性信息获取模型中，输出目标声音属性信息。

在一种可能实现方式中，该装置还包括：

训练模块，用于将该语音指令的指令信息、该用户的用户画像信息和情绪信息中至少一项作为训练样本，对该声音属性信息获取模型进行训练，得到更新后的声音属性信息获取模型。

在一种可能实现方式中，该获取模块802还用于根据该语音指令的指令信息，获取该语音指令对应的资源和操作指令；

在一种可能实现方式中，该装置还包括下述任一项：

发送模块，用于将该语音指令对应的资源和操作指令发送至该用户所在终端，由该用户所在终端执行该操作指令，对该资源进行显示或播放；

执行模块，用于执行该操作指令，对该资源进行显示或播放。

本发明实施例提供的装置，通过对用户的语音指令进行分析，得到语音指令的指令信息、用户画像信息和情绪信息中至少一项，从而基于该至少一项信息来确定以怎样的声音的语音响应来对语音指令进行反馈，该语音响应的声音属性不固定，而是和语音指令的一项或多项信息相关，二者的关联性较强，为语音交互过程增加了趣味性、智能性和多样性，响应效果较好。

需要说明的是：上述实施例提供的语音交互装置在进行语音交互时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音交互装置与语音交互方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述电子设备可以为下述图9所示的终端，也可以为下述图10所示的服务器，本发明实施例对此不作限定。

图9是本发明实施例提供的一种终端的结构示意图。该终端900可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑等。终端900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端900包括有：一个或多个处理器901和一个或多个存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本发明中方法实施例提供的语音交互方法。

在一些实施例中，终端900还可选包括有：至少一个外围设备。处理器901、存储器902可以和外围设备通过总线或信号线相连。在一个具体的可能实施例中，各个外围设备可以通过总线、信号线或电路板还可以与外围设备接口相连，进而与总线或信号线相连。具体地，外围设备包括：射频电路903、显示屏904、和音频电路905中的至少一种。

射频电路903用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路903通过电磁信号与通信网络以及其他通信设备进行通信。射频电路903将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路903包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路903可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路903还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本发明对此不加以限定。

显示屏904用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏904是触摸显示屏时，显示屏904还具有采集在显示屏904的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏904还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏904可以为一个，设置终端900的前面板；在另一些实施例中，显示屏904可以为至少两个，分别设置在终端900的不同表面或呈折叠设计；在再一些实施例中，显示屏904可以是柔性显示屏，设置在终端900的弯曲表面上或折叠面上。甚至，显示屏904还可以设置成非矩形的不规则图形，也即异形屏。显示屏904可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

音频电路905可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路903以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路903的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路905还可以包括耳机插孔。

本领域技术人员可以理解，图9中示出的结构并不构成对终端900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图10是本发明实施例提供的一种服务器的结构示意图，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(central processing units，CPU)1001和一个或多个的存储器1002，其中，所述一个或多个存储器1002中存储有至少一条指令，所述至少一条指令由所述一个或多个处理器1001加载并执行以实现上述各个方法实施例提供的语音交互方法。当然，该服务器1000还可以具有有线或无线网络接口以及输入输出接口等部件，以便进行输入输出，该服务器1000还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由处理器执行以完成上述实施例中的语音交互方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音交互方法，其特征在于，所述方法包括：

提供具有所述目标声音属性信息的目标语音响应。

2.根据权利要求1所述的方法，其特征在于，所述基于所述语音指令的指令信息、所述用户的用户画像信息和情绪信息中至少一项，获取目标声音属性信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述语音指令的指令信息、所述用户的用户画像信息和情绪信息中至少一项，从多个声音属性信息中，选择多个候选声音属性信息，包括：

将所述语音指令的指令信息、所述用户的用户画像信息和情绪信息中至少一项中每一项信息对应的声音属性信息确定为候选声音属性信息。

4.根据权利要求2所述的方法，其特征在于，所述基于所述语音指令的指令信息、所述用户的用户画像信息和情绪信息中至少一项，获取每个候选声音属性信息与所述语音指令的关联程度，包括：

基于所述语音指令的指令信息、所述用户的用户画像信息和情绪信息中至少一项中每一项信息的权重，对所述每个候选声音属性信息与所述每一项信息的关联程度进行加权求和，得到每个候选声音属性信息与所述语音指令的关联程度。

5.根据权利要求2所述的方法，其特征在于，所述基于所述语音指令的指令信息、所述用户的用户画像信息和情绪信息中至少一项，从多个声音属性信息中，选择多个候选声音属性信息，包括：

将所述语音指令的指令信息、所述用户的用户画像信息和情绪信息中至少一项与声音属性信息库进行匹配，获取匹配的多个候选声音属性信息。

6.根据权利要求1所述的方法，其特征在于，所述基于所述语音指令的指令信息、所述用户的用户画像信息和情绪信息中至少一项，获取目标声音属性信息，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括下述至少一项：

8.根据权利要求1所述的方法，其特征在于，所述基于所述语音指令的指令信息、所述用户的用户画像信息和情绪信息中至少一项，获取目标声音属性信息，包括：

调用声音属性信息获取模型，将所述语音指令的指令信息、所述用户的用户画像信息和情绪信息中至少一项输入所述声音属性信息获取模型中，输出目标声音属性信息。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

将所述语音指令的指令信息、所述用户的用户画像信息和情绪信息中至少一项作为训练样本，对所述声音属性信息获取模型进行训练，得到更新后的声音属性信息获取模型。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述语音指令的指令信息，获取所述语音指令对应的资源和操作指令。

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

当所述方法由服务器执行时，将所述语音指令对应的资源和操作指令发送至所述用户所在终端，由所述用户所在终端执行所述操作指令，对所述资源进行显示或播放；

当所述方法由终端执行时，执行所述操作指令，对所述资源进行显示或播放。

12.一种语音交互装置，其特征在于，所述装置包括：

13.根据权利要求12所述的装置，其特征在于，所述获取模块用于：

14.一种电子设备，其特征在于，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求11任一项所述的语音交互方法所执行的操作。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求11任一项所述的语音交互方法所执行的操作。