CN115910111A

CN115910111A - 语音交互方法、装置、智能设备及计算机可读存储介质

Info

Publication number: CN115910111A
Application number: CN202211567061.7A
Authority: CN
Inventors: 付华东
Original assignee: Shenzhen Skyworth RGB Electronics Co Ltd
Current assignee: Shenzhen Skyworth RGB Electronics Co Ltd
Priority date: 2022-12-07
Filing date: 2022-12-07
Publication date: 2023-04-04

Abstract

本发明公开了一种语音交互方法、装置、智能设备及计算机可读存储介质，所述方法包括：获取目标用户的语音信息，根据所述语音信息确定所述目标用户的身份标识和心情标识；根据所述身份标识和所述心情标识，确定与所述身份标识和所述心情标识共同对应的目标语音数据，并输出所述目标语音数据。通过将本发明中的语音交互方法应用于智能电视等智能设备，能够基于用户的特定身份和当前的心情与用户进行更加智能化、个性化的语音互动功能，有利于用户好心情的保持和坏心情的修复，提升了用户使用智能设备的语音功能时的体验感受。

Description

语音交互方法、装置、智能设备及计算机可读存储介质

技术领域

本发明涉及智能设备技术领域，尤其涉及一种语音交互方法、装置、智能设备及计算机可读存储介质。

背景技术

用户在独处的时候，常常找不到其它人分享或倾诉自己的心情，并且随着智能设备的快速普及以及生活节奏的加快，使得人与人之间的交流也变得越来越少，用户为了排解自己的情绪，越来越倾向于和机器进行对话。

目前绝大多数智能设备都可以通过语音助手的功能识别用户语音来与用户进行互动，这种用户与语音助手进行交流互动的方式也越来越普遍，成为了很多用户宣泄情绪的一种重要方式。但就目前的智能设备的语音功能而言，只能通过识别到的语音关键词与用户进行一些简单直接的对话交流，而无法通过用户的语音信息捕捉到不同用户的情绪变化作出更加智能化的回应，这种简单采用预设的话术模板与用户进行互动的方式，不仅无法排解用户的心情，甚至还会消极影响用户的心情。

发明内容

本发明的主要目的在于提供一种语音交互方法、装置、智能设备及计算机可读存储介质，旨在解决智能设备的语音功能无法排解用户心情的技术问题。

为实现上述目的，本发明提供一种语音交互方法，所述语音交互方法包括以下步骤：

获取目标用户的语音信息，根据所述语音信息确定所述目标用户的身份标识和心情标识；

根据所述身份标识和所述心情标识，确定与所述身份标识和所述心情标识共同对应的目标语音数据，并输出所述目标语音数据。

可选地，所述根据所述语音信息确定所述目标用户的身份标识和心情标识的步骤，包括：

获取所述语音信息中的音色特征、音调特征和响度特征；

根据所述音色特征确定所述目标用户的身份标识，以及根据所述音调特征和所述响度特征确定所述目标用户的心情标识。

可选地，所述确定与所述身份标识和所述心情标识共同对应的目标语音数据，并输出所述目标语音数据的步骤，包括：

确定与所述身份标识和所述心情标识共同对应的目标语音数据，以及确定与所述身份标识和所述心情标识共同对应的目标虚拟形象动画；

同步输出所述目标虚拟形象动画和所述目标语音数据。

可选地，所述身份标识包括年龄段和性别；所述确定与所述身份标识和所述心情标识共同对应的目标虚拟形象动画的步骤，包括：

确定与所述年龄段和所述性别共同对应的目标虚拟形象；

确定与所述心情标识对应的目标虚拟动画；

将所述目标虚拟形象与所述目标虚拟动画结合以确定目标虚拟形象动画。

可选地，所述确定与所述身份标识和所述心情标识共同对应的目标语音数据的步骤，包括：

获取所述语音信息中的关键词，确定与所述关键词对应的语音数据集合；

从所述语音数据集合中确定与所述身份标识和所述心情标识共同对应的目标语音数据。

可选地，所述输出所述目标语音数据的步骤之后，所述方法还包括：

获取与所述目标语音数据对应的用户反馈语音；

根据所述用户反馈语音对应的心情标识和所述语音信息对应的心情标识，确定所述目标用户的心情反馈类型；

根据所述心情反馈类型，执行对应的语音输出操作或者节目输出操作。

可选地，所述心情反馈类型包括心情正反馈和心情负反馈；所述根据所述心情反馈类型，执行对应的语音输出操作或者节目输出操作的步骤，包括：

若所述心情反馈类型为所述心情正反馈，则输出与所述身份标识和所述心情标识共同对应的节目信息；或

若所述心情反馈类型为所述心情负反馈，则每隔预设周期输出与当前周期对应的关怀语音以使所述心情反馈类型转换为所述心情正反馈。

此外，为实现上述目的，本发明还提供一种语音交互装置，所述语音交互装置，包括：

语音识别模块，用于获取目标用户的语音信息，根据所述语音信息确定所述目标用户的身份标识和心情标识；

语音匹配模块，用于根据所述身份标识和所述心情标识，确定与所述身份标识和所述心情标识共同对应的目标语音数据，并输出所述目标语音数据。

此外，为实现上述目的，本发明还提供一种智能设备，包括处理器、存储单元、以及存储在所述存储单元上的可被所述处理器执行的语音交互程序，其中，所述语音交互程序被所述处理器执行时，实现如上所述的语音交互方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有语音交互程序，其中，所述语音交互程序被处理器执行时，实现如上所述的语音交互方法的步骤。

本发明技术方案中的语音交互方法，通过获取目标用户的语音信息，根据所述语音信息确定所述目标用户的身份标识和心情标识的步骤，能够在确认目标用户的身份的同时还能够捕捉到目标用户的当前心情；又通过根据所述身份标识和所述心情标识，确定与所述身份标识和所述心情标识共同对应的目标语音数据，并输出所述目标语音数据的步骤，能够基于目标用户的身份和当前的心情自适应地选择与目标用户的身份和心情同时匹配的目标语音数据，通过输出该目标语音数据实现与用户的良好互动，由于该目标语音数据参考了用户的身份因素和心情因素，所以能够根据不同用户的不同心情作出有利于调节目标用户情绪的语音互动，针对性排解用户心情，在目标用户处于好心情的状态下继续强化或维持该好心情，在目标用户处于坏心情的状态下提供更多的关怀和疏导从而改善用户的坏心情，也就是说无论目标用户的当前心情如何，本发明都能够基于用户情绪作出更加智能化、人性化的互动交流，从而有利于用户好心情的保持和坏心情的修复，维护了用户的心理健康，同时也提升了用户使用智能设备的语音功能时的体验和感受。

附图说明

图1为本发明实施例方案涉及的智能设备的硬件运行环境的结构示意图；

图2为本发明语音交互方法第一实施例的流程示意图；

图3为本发明语音交互方法一实施例涉及的步骤S10的细化流程图；

图4为本发明语音交互方法一实施例涉及的步骤S20的细化流程示意图；

图5为本发明语音交互方法一实施例涉及的步骤S21的细化流程示意图；

图6为本发明语音交互方法一实施例涉及的步骤S20之后的流程示意图；

图7为本发明语音交互方法的一场景应用流程图；

图8为本发明语音交互装置的框架结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例提出一种智能设备。智能设备可以为智能电视、个人计算机、平板电脑、手机等任意类型的智能设备，在此不做限制。

如图1所示，图1是本发明实施例方案涉及的智能设备的硬件运行环境的结构示意图。

如图1所示，该智能设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储单元1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示器(Display)、输入单元比如控制面板，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WIFI接口)。存储单元1005可以是高速RAM存储单元，也可以是稳定的存储单元(non-volatile memory)，例如磁盘存储单元。存储单元1005可选的还可以是独立于前述处理器1001的存储装置。作为一种计算机存储介质的存储单元1005中可以包括语音交互程序。

本领域技术人员可以理解，图1中示出的硬件结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

继续参照图1，图1中作为一种计算机可读存储介质的存储单元1005可以包括操作系统、用户接口模块、网络通信模块以及语音交互程序。

在图1中，网络通信模块主要用于连接服务器，与服务器进行数据通信；而处理器1001可以调用存储单元1005中存储的语音交互程序，并执行以下操作：

进一步地，处理器1001可以调用存储器1005中存储的语音交互程序，还执行以下操作：

获取所述语音信息中的音色特征、音调特征和响度特征；

同步输出所述目标虚拟形象动画和所述目标语音数据。

确定与所述年龄段和所述性别共同对应的目标虚拟形象；

确定与所述心情标识对应的目标虚拟动画；

获取与所述目标语音数据对应的用户反馈语音；

为了便于理解以下本发明的各个实施例，在此对本发明技术方案中的实施例按照方案整体进行简要说明：

本发明主要以家庭为单位(但不仅限于以家庭为单位)，在新用户第一次使用电视等智能设备时，可以对家庭成员的身份进行识别，一个家庭可能有老人，大人，小孩等组成，由于每个人的声音都是唯一且不一样的，所以可以通过电视等智能设备采集用户的声纹进行家庭成员的身份识别。例如采集并记录家庭成员”爷爷”、“奶奶”、“爸爸”、“妈妈”“儿童”等成员在不同心情下的声纹信息，可以根据需要添加新成员，也可以根据需要删除部分成员。

当用户再次使用电视等智能设备时，通过用户输出的语音和智能设备进行交互，智能设备可以根据用户的声纹获取到当前用户的年龄、性别以及心情。并根据用户年龄、性别以及和心情进行语音互动，从而让电视更加智能化、人性化、提升了用户的体验，从而满足不同用户、不同心情时的个性化需求，提供更多的人性关怀服务，让用户内心感受到满满的关怀。

基于上述智能设备的硬件结构，提出本发明语音交互方法的各个实施例。

本发明实施例提供一种语音交互方法。

请参照图2，图2为本发明语音交互方法第一实施例的流程示意图；在本发明第一实施例中，所述语音交互方法包括以下步骤：

步骤S10，获取目标用户的语音信息，根据所述语音信息确定所述目标用户的身份标识和心情标识；

在本实施例中，执行主体为智能设备，该智能设备可以为智能电视、个人笔记本、平板电脑、手机等设备，在此不做限制，为了描述上和理解上的便利，在本发明的各个实施例中以智能电视为例进行说明。

智能电视可以通过内置的麦克风或者与智能电视通信连接的操作终端(比如遥控器、移动终端等)的麦克风以及内置的声纹识别模块或者与智能电视连接的服务器中声纹识别模块来采集获取目标用户的语音信息识别该语音信息以确定目标用户的身份标识和心情标识。

智能电视除了在目标用户观看电视时可以采集获取目标用户的语音信息以确定目标用户的身份和心情标识，还可以在待机状态下获取目标用户的语音信息，并在待机状态下被开启时将待机状态下最后一次获取到的语音信息作为目标用户的语音信息，从而准确地确定当前正在观看电视的目标用户以及其身份和心情。进一步地，还可以将待机状态下最后一次获取到的语音信息中的分贝最大或振幅最大的语音信息作为目标用户的语音信息，从而更精进一步准确地确定当前正在观看电视的目标用户以及其身份和心情。此外，还可以在智能电视启动时通过引导目标用户按照智能电视显示的预设文字进行语音输出从而得到更加可靠的目标用户的语音信息，并基于该语音信息精准地识别用户的身份标识和心情标识。

需要进一步说明的是，在本实施例中，其中的身份标识可以包括年龄段和性别，比如年龄段可以分为儿童(0～8岁)、少年(8～18岁)、青年(18～35岁)、中年(35～55岁)、老年(55岁以上)，当然也可以根据其它年龄划分规则对年龄段进行划分，在此仅做示例。其中的心情标识可以包括心情愉悦、心情平和、心情低落，当然还可以将心情标识划分的更加具体，在此仅做示例。

请参照图3，在一实施例中，所述步骤S10，根据所述语音信息确定所述目标用户的身份标识和心情标识的步骤，包括：

步骤S11，获取所述语音信息中的音色特征、音调特征和响度特征；

步骤S12，根据所述音色特征确定所述目标用户的身份标识，以及根据所述音调特征和所述响度特征确定所述目标用户的心情标识。

首先需要说明的是，之所以获取语音信息中的音色特征、音调特征以及响度特征，并根据音色特征确定目标用户的身份以及根据音调特征和响度特征确定目标用户的心情，是在大量试验和实际考量的基础上确定的，具体来说：

考虑到在音调、响度和音色这三个声音的基本特征属性中，音色是最能反映一个人身份信息的属性；和心情平和时相比，心情低落时说话，响度和音调会明显下降，心情好时说话，响度和音调会明显上升，但是音色是不会有明显的变化。语音信号可以认为是一种短时平稳信号和长时非平稳信号，其长时的非平稳特性是由于发音器官的物理运动过程变化而产生的。但是，发声器官的运动又存在一定的惯性，所以在短时间内，可以认为语音信号还是可以当成平稳信号来处理，这个短时一般范围在10到30毫秒之间。也即是说语音信号(语音信息)的相关特征参数的分布规律在短时间(10-30ms)内可以认为是一致的，而在长时间来看则是有明显变化的。在数字信号处理时，一般而言都期望对平稳信号进行时频分析，从而提取特征。因此，在对语音信号进行特征提取的时候，会有一个15-20ms左右的时间窗，在这个时间窗内可以认为语音信号是平稳的。音色上的差异在信号处理的层面可以表示为在频域不同频段能量的差异，因此可以通过抽取不同频段上的能量值，即可以表示在这个短时语音范围内频谱的性质。综合考虑人耳的听觉属性(人耳的一个听觉属性是在可听到的频段内，对于低频的变化更加敏感，而对于高频相对弱一些)，一段15-20毫秒长度的语音(以8KHz采样为例，这个长度的语音对应着160-200个采样点)可以映射为一段30-40维的向量。为了充分保留语音中的原始信息，通常会以15-20毫秒为间隔依次取短时段语音，然后提取音调，响度和音色特征。这样一段语音就被映射为时间轴上一系列的向量集合，即可成为反映语音特性的特征集合。

在该实施例中，具体而言，可以每间隔预设周期提取所述语音信息中的短时段语音以得到音色特征、音调特征和响度特征，所述预设周期可以为15-20毫秒。在得到音色特征、音调特征和响度特征这三个语音特征之后，既可以基于不同年龄段和不同性别的音色特点直接确定用户的年龄段和性别等身份标识，也可以根据预设的声纹特征库和所述音色特征确定所述目标用户的身份标识，也即确定目标用户的年龄段和性别或者其它身份标识，其中预设的声纹特征库可以是各个目标用户在第一次使用智能电视时根据智能电视的系统提示输入语音进行训练得到，也即声纹特征库至少包括了各个目标用户的音色特征，通过所述语音信息中的所述音色特征与声纹特征库进行匹配就能够确定目标用户的身份标识。

同时，该实施例还可以根据音调特征和所述响度特征确定所述目标用户的心情标识，也即可以确定目标用户的心情是心情愉悦或是心情平和或是心情低落，具体如何根据音调特征和所述响度特征确定所述目标用户的心情标识，既可以基于音调特征和响度特征直接确定心情标识，以心情平和时的基准音调特征范围和基准响度特征范围为基准，心情低落时说话，响度和音调会分别小于基准音调特征范围的最小值和基准响度特征范围的最小值，相比心情平和响度和音调会呈现明显下降的特点，心情愉悦时说话，响度和音调会分别大于基准音调特征范围的最大值和基准响度特征范围的最大值，相比心情平和响度和音调会呈现明显上升的特点。此外，还可以根据预设的声纹特征库和所述音调特征以及所述响度特征确定所述目标用户的心情标识，也即声纹特征库还可以包括各个目标用户的音调特征以及响度特征，可以在各个目标用户第一次使用智能电视时分别以不同的心情输入语音训练得到。

步骤S20，根据所述身份标识和所述心情标识，确定与所述身份标识和所述心情标识共同对应的目标语音数据，并输出所述目标语音数据；

在确定了目标用户的身份和当前心情后，可以从预设的语音数据库(可以预设在智能电视或者与智能电视通信连接服务器)中查找与所述身份标识和所述心情标识同时匹配的目标语音数据，并将目标语音数据输出从而实现与用户的语音互动，该目标语音数据用于对目标用户的心情进行维持或者改善，比如目标用户为儿童，儿童在看电视时，通过语音和电视进行互动，识别到儿童很开心，智能电视的语音助手就可以问她“小朋友有什么开心的事情，一起分享一下吧”，此为对目标用户心情进行维持；再比如，青年在看电视，通过语音和电视进行互动，识别到青年心情低落，语音助手就可以说：“你没事吧，一切都会好起来的”，此为对目标用户心情进行改善。通俗一点来说，目标语音数据就是在目标用户心情好的时候起到维持用户好心情的作用，在目标用户心情差的时候起到关怀和改善用户坏心情作用。

在一实施例中，所述步骤S20，确定与所述身份标识和所述心情标识共同对应的目标语音数据的步骤，包括：

步骤a，获取所述语音信息中的关键词，确定与所述关键词对应的语音数据集合；

步骤b，从所述语音数据集合中确定与所述身份标识和所述心情标识共同对应的目标语音数据。

语音信息中的关键词可以包括语音信息中的名词、动词、连接词等各种词性的词汇，可以根据预设的关键词提取规则获取语音信息中的关键词，比如可以只提取名词和形容词作为关键词，也可以将语音信息中的全部内容都作为关键词，将获取到关键词输入到预设的语音识别模型从而确定语音信息的实际表意内容，并确定与关键词对应的语音数据集合，在该语音数据集合中可以包括多个用于回答目标用户的语音信息的语音数据，在这多个用于回答目标用户的语音信息的语音数据中还包括了不同语音特征(音色特征、音调特征、响度特征)的语音数据，比较好理解是，比如，其中一个用于回答目标用户的语音信息的语音数据为“让我为你唱一首歌吧”可以包括多个不同语音特征的子语音数据，也就是说“让我为你唱一首歌吧”可以用不同的语气“说出来”。

在确定了用来准确回应目标用户的语音信息的语音数据集合后，可以从该语音数据集合从确定与所述身份标识和所述心情标识共同对应的目标语音数据，比如，身份标识为男性和儿童、心情标识为心情愉悦，儿童对智能电视说：“今天放假了想放松一下”对应的语音数据集合为多个包含“让我为你唱一首歌吧”内容的语音数据，从中选择具有青年女老师和心情愉悦的语音特征的目标语音数据，进而也就是可以用青年女老师怀着愉悦的心情的方式输出“让我为你唱一首歌吧”这段语音互动的内容。

在该实施例中，不仅可以通过提取语音信息中的音色特征、音调特征和响度特征确定目标用户的身份和心情，还可以根据语音信息中的具体内容针对性地确定可以准确回复语音信息的目标语音数据，从而使得语音助手既能够“理解”目标用户的说话内容和含义，也能够针对用户的身份和心情进行相应的语音互动，从而使得语音助手更加智能和人性化，使得目标用户的心情也能够得到更加针对性的排解。

基于上述各项实施例，在一实施例中，所述身份标识包括：性别以及年龄段；所述步骤S10，根据所述语音信息确定所述目标用户的身份标识和心情标识的步骤，包括：

步骤c，获取所述语音信息中的声纹特征，确定声纹特征库中与所述声纹特征对应的目标声纹模型；

在该实施例中，可以在通过声纹识别模块中的声纹数据采集模块获取用户的语音信息之后，通过声纹识别模块中的声纹数据分析模块提取所述语音信息中的声纹特征，再具体地，可以通过所述声纹数据分析模块中的特征提取单元提取该声纹特征，该声纹特征可以包括语音信息的声波幅值、共振峰的频率值及其分布等。在得到声纹特征之后可以将该声纹特征存储或缓存在声纹数据分析模块中的声纹存储单元，并将该声纹特征输入到声纹数据分析模块中的声纹对比单元从而确定声纹特征库中与所述声纹特征对应的目标声纹模型，具体地，可以将所述声纹特征与声纹特征库中存储的各个声纹模型进行遍历对比，从而得到目标用户的目标特征模型。

步骤d，根据所述目标声纹模型，确定所述目标用户的所述性别、所述年龄段和心情标识。

在确定了目标用户的目标特征模型之后，目标用户的身份标识和心情标识就蕴含于该目标特征模型之中，解析该目标特征模型就得到了包括所述目标用户的用户性别、用户年龄段在内的身份标识以及包括快乐或平和或低落的心情标识，其中这里的心情标识不限于快乐或平和或低落，还可以根据实际需要设置其它心情标识，比如愤怒、痛苦、抑郁等复杂心情，在此不做限制。其中的用户性别比较好理解，分为男性和女性，用户年龄段可以分为少年、青年、中年或者老年等年龄段。此外，基于不同用户的身份和当前心情，能够更加个性化地为用户推荐节目资源，满足不同用户以及同一用户不同心情的观看节目需求。

在一实施例中，在所述步骤c之前，还需要对各个目标用户的语音进行训练从而得到各个目标用户的声纹模型。

输出一段有代表性的话语按操作逻辑指示，智能电视提示家庭的所有成员用户分别进行录音采集声纹。可以提示目标用户提供多段不同心情标识下的训练语音，比如心情标识为快乐、平和、低落时的语音，这多段语音经过特征提取和模型训练等一系列操作，会被映射为不同目标用户在不同心情时的声纹模型，将各个声纹模型存储在声纹特征库，该声纹特征库所述声纹特征库为用于声纹特征匹配声纹模型(识别)而建立的模块库，因此可以为满足匹配要求而预先建立；其中，所述声纹特征库针对每个需要语音识别的目标用户均存储有该目标用户的多个声纹特征，并可在后续识别语音信息的过程中不断添加或优化声纹特征；该声纹特征库可以存储在智能电视中，也可以存储在与智能电视通信连接的服务器中。

对于所述声纹特征库建立存储在智能电视本地的情况，根据语音信息的识别结果，可以直接得到目标用户的身份标识和心情标识。

对于所述声纹特征库在服务器存储建立的情况，可以将每次获取到的语音信息以音频文件的格式存储，并将所述语音信息对应的音频文件发送至服务器端；服务器遍历所述声纹特征库以对音频文件中的所述声纹特征进行匹配，其中，匹配过程为查找与该声纹特征相比满足预设的声纹匹配阈值(其中，所述声纹匹配阈值根据建立的声纹特征库的精确度以及匹配需求而定)的目标声纹模型，也即目标声纹模型中的声纹特征与所述声纹特征之间的匹配值大于或等于该声纹匹配阈值。从而确定出目标用户的身份以及心情。

在得到所有用户的声纹模型之后，在智能电视启动时，可以启动声纹识别模块，采集获取用户发出的语音信息，声纹识别模块包括声纹数据采集模块和声纹数据分析模块，其中声纹数据采集模块用于采集用户发出的语音信息，声纹数据分析模块包括特征提取单元、声纹存储单元及声纹对比单元。其中，特征提取单元分别与声纹数据采集模块、声纹存储单元及声纹对比单元连接，特征提取单元用于提取声纹数据采集模块发送来的语音信息中的声纹特征，并将其分别发送给声纹存储单元及声纹对比单元；声纹存储单元用于接收特征提取单元发送来的声纹特征，根据声纹对比单元发送来的用户身份选择对应的声纹模型，该声纹模型可以关联该声纹特征以迭代优化声纹模型，从而在使得该声纹模型的识别准确率和效率会越来越高，也就使得智能电视等智能设备对语音信息识别的速度和准确性也越来越高。

请参照图4，基于上述各项实施例，在一实施例中，所述步骤S20，确定与所述身份标识和所述心情标识共同对应的目标语音数据，并输出所述目标语音数据的步骤，包括：

步骤S21，确定与所述身份标识和所述心情标识共同对应的目标语音数据，以及确定与所述身份标识和所述心情标识共同对应的目标虚拟形象动画；

步骤S22，同步输出所述目标虚拟形象动画和所述目标语音数据。

在确定与所述身份标识和所述心情标识共同对应的目标语音数据的同时还可以与所述身份标识和所述心情标识共同对应的目标虚拟形象动画，也就是说不同的用户和用户在不同的心情下可以呈现不同的虚拟形象动画，进而可以使得语音助手一边输出目标语音数据的同时一边动态显示输出语音时的虚拟形象动画，使得用户感觉到并不是简单冰冷的机器在与其进行对话，从而增强用户的视觉和听觉感知，更加有利于用户情绪的及时调节。为了便于理解上述过程，示例性地，比如：儿童向智能电视分享了开心的事情：“我期末考试得了第一名”，语音助手输出目标语音数据：“哇，那真是太好啦”，此时目标虚拟形象动画就可以为：一个虚拟形象摇头晃脑，很开心的笑着并且鼓掌；再比如当前是青年在看电视，通过语音和电视进行互动，识别到青年心情低落，语音助手输出目标语音数据：“你没事吧，一切都会好起来的”，此时目标虚拟形象动画就可以为：一个虚拟形象微微歪头，露出担心的表情，双手合十自然下垂放在身体前侧。

请参照图5，基于上述各项实施例，在一实施例中，所述步骤S21，确定与所述身份标识和所述心情标识共同对应的目标虚拟形象动画的步骤，包括：

步骤S210，确定与所述年龄段和所述性别共同对应的目标虚拟形象；

在该实施例中，可以为不同年龄段和不同性别的目标用户设定不同的在智能电视上显示的虚拟形象，比如目标用户为女性儿童，对应的虚拟形象可以为公主的形象，再比如目标用户为男性儿童，对应的虚拟形象可以为王子的形象。目标虚拟形象还可以是不同身份标识的用户预先自定义的虚拟形象，在通过语音信息确定了目标用户的年龄段和性别等身份标识之后，可以直接确定和显示与年龄段和性别共同对应的目标虚拟形象，比如，目标用户为女性少年，其自定义的目标虚拟形象为一只宠物猫。

步骤S211，确定与所述心情标识对应的目标虚拟动画；

不同的心情标识可以对应不同的目标虚拟动画，比如，目标用户心情愉悦时目标虚拟动画可以呈现出一些活跃、欢快的动画内容；目标用户心情低落时可以呈现一些关心、思考的动画内容；目标用户心情平静时可以呈现一些轻松、休闲的动画内容等。

步骤S212，将所述目标虚拟形象与所述目标虚拟动画结合以确定目标虚拟形象动画。

基于动作捕捉的技术可以将目标虚拟形象与目标虚拟动画进行结合从而得到目标虚拟形象动画，可以理解为形式与内容的结合，这样一来，在确定了目标虚拟形象和目标虚拟动画后，就能够通过目标虚拟形象呈现出目标虚拟动画，从而更大限度地保障智能电视所呈现出的目标虚拟形象动画符合用户的预期，更加个性化，从而通过针对性呈现目标虚拟形象动画和播放目标语音数据使得用户的心情能够得到更充分、有效的调节和疏导。

请参照图6，基于上述各项实施例，在一实施例中，所述步骤S20之后，所述方法还包括：

步骤S30，获取与所述目标语音数据对应的用户反馈语音；

目标用户在听到智能电视输出的目标语音数据之后，可能对于目标语音数据会有相应的对话，也即用户反馈语音。

步骤S40，根据所述用户反馈语音对应的心情标识和所述语音信息对应的心情标识，确定所述目标用户的心情反馈类型；

可以对用户反馈语音进行识别从而确定用户反馈语音对应的心情标识，为了便于区分，可以将这一心情标识作为第二心情标识，将一开始的所述语音信息的心情标识作为第一心情标识，将第一心情标识和第二心情标识进行比较，确定目标用户的心情反馈类型，也即确定目标用户的心情变化。

步骤S50，根据所述心情反馈类型，执行对应的语音输出操作或者节目输出操作。

心情反馈类型可以包括：心情正反馈和心情负反馈，其中心情正反馈表征心情愉悦的维持或由心情平和转变为心情愉悦或由心情低落转变为心情平和或由心情平和转变为心情愉悦；其中心情负反馈表征心情低落的维持或由心情愉悦转变为心情低落或由心情平和转变为心情低落。

根据不同的心情反馈类型，可以执行不同的语音输出操作或者节目输出操作，其中的语音输出操作指的是继续输出相应的语音与用户保持交流互动，其中的节目输出操作是指根据用户的心情向用户推荐或播放用户喜爱的电视节目；通过该实施例能够持续跟进用户心情的调节，确保用户的情绪能够实际得到有效排解从而保护用户的心理健康。

基于上述各项实施例，在一实施例中，所述步骤S50，包括：

步骤e，若所述心情反馈类型为所述心情正反馈，则输出与所述身份标识和所述心情标识共同对应的节目信息；或

如果所述心情反馈类型为所述心情正反馈，则可以根据预设的用户历史播放数据库确定与所述身份标识和所述心情标识共同对应的节目信息，该用户历史播放数据库记录了各个目标用户在不同心情时播放的历史节目信息。与所述身份标识和所述心情标识共同对应的节目信息可以为用户历史播放数据库中的历史节目信息，也可以为与历史节目信息具有相同标签或类型的新的节目信息(目标用户未看过的)，在确定了对应的节目信息之后，可以输出该节目信息，输出该节目信息可以为推荐该节目信息并不直接播放，也可以为直接播放该节目信息。比如，男性儿童在前后两次都是心情愉悦的情况下，也即心情正反馈的情况下，可以推荐一部或几部男孩子感兴趣的比较亢奋的动画片；

步骤f，若所述心情反馈类型为所述心情负反馈，则每隔预设周期输出与当前周期对应的关怀语音以使所述心情反馈类型转换为所述心情正反馈。

如果所述心情反馈类型为所述心情负反馈，可以不定时或者每隔预设周期输出与当前周期对应的关怀语音，比较好理解的是，在不同的周期可以有不同的关怀语音，并且在当前周期的关怀语音可以是前一周期关怀语音的递进，从而使得各个周期的关怀语音之间是连续的，其目的是循序渐进地将所述心情反馈类型转换为所述心情正反馈，也即对用户的心情进行持续的关心和引导从而使得用户心情变好。这样能够保障目标用户的坏心情得到有效和循序渐进的缓解，也能够让用户感受到智能电视的智能化和真实化，起到了非常有效的缓解低落心情的作用。

此外，如果所述心情反馈类型为所述心情负反馈，也可以向目标用户推荐与所述身份标识和所述心情标识共同对应的节目信息从而缓解用户的低落心情。比如男性青年在心情低落时，可以针对性推荐一些他感兴趣的喜剧，励志类的电影或者综艺节目从而对他起到一定的安抚和鼓励作用。

此外，为了进一步理解本发明的技术方案，请参照图7，图7为本发明语音交互方法的一场景应用流程图。如图7所示：

1、新用户第一次使用电视；

2、根据电视端提示家庭的所有成员进行录音采集声纹，需要目标用户首先提供3段语音，分别为：心情愉悦、心情平和、心情低落时的语音；

3、采集用户声纹结束后，声纹数据分析模块进行特征提取、存储；

4、根据用户使用语音功能时上报的音频特征，可以分析得到用户的性别以及年龄段对不同音频特征的声纹用户，分配唯一的声纹识别号，作为用户识别号；

5、当用户再次使用电视时，通过远场语音和电视进行交互，电视会根据用户的声纹获取到当前用户的年龄段、性别以及心情和电视进行语音互动。

此外，参照图8，图8为本发明语音交互装置的框架结构示意图。本发明还提出一种语音交互装置装置，所述语音交互装置包括：

语音识别模块A10，用于获取目标用户的语音信息，根据所述语音信息确定所述目标用户的身份标识和心情标识；

语音匹配模块A20，用于根据所述身份标识和所述心情标识，确定与所述身份标识和所述心情标识共同对应的目标语音数据，并输出所述目标语音数据。

可选地，所述语音识别模块A10，还用于：

获取所述语音信息中的音色特征、音调特征和响度特征；

可选地，所述语音匹配模块A20，还用于：

同步输出所述目标虚拟形象动画和所述目标语音数据。

可选地，所述语音匹配模块A20，还用于：

确定与所述年龄段和所述性别共同对应的目标虚拟形象；

确定与所述心情标识对应的目标虚拟动画；

可选地，所述语音匹配模块A20，还用于：

获取与所述目标语音数据对应的用户反馈语音；

可选地，所述语音匹配模块A20，还用于：

本发明的语音交互装置具体实施方式与上述语音交互方法各实施例基本相同，在此不再赘述。

此外，本发明还提供一种计算机可读存储介质。本发明计算机可读存储介质上存储有语音交互程序，其中，语音交互程序被处理器执行时，实现如上述的语音交互方法的步骤。

其中，语音交互程序被执行时所实现的方法可参照本发明语音交互方法的各个实施例，此处不再赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储单元中，使得存储在该计算机可读存储单元中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其它相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种语音交互方法，其特征在于，所述语音交互方法包括以下步骤：

2.如权利要求1所述的语音交互方法，其特征在于，所述根据所述语音信息确定所述目标用户的身份标识和心情标识的步骤，包括：

获取所述语音信息中的音色特征、音调特征和响度特征；

3.如权利要求1所述的语音交互方法，其特征在于，所述确定与所述身份标识和所述心情标识共同对应的目标语音数据，并输出所述目标语音数据的步骤，包括：

同步输出所述目标虚拟形象动画和所述目标语音数据。

4.如权利要求1所述的语音交互方法，其特征在于，所述身份标识包括年龄段和性别；所述确定与所述身份标识和所述心情标识共同对应的目标虚拟形象动画的步骤，包括：

确定与所述年龄段和所述性别共同对应的目标虚拟形象；

确定与所述心情标识对应的目标虚拟动画；

5.如权利要求1所述的语音交互方法，其特征在于，所述确定与所述身份标识和所述心情标识共同对应的目标语音数据的步骤，包括：

6.如权利要求1所述的语音交互方法，其特征在于，所述输出所述目标语音数据的步骤之后，所述方法还包括：

获取与所述目标语音数据对应的用户反馈语音；

7.如权利要求6所述的语音交互方法，其特征在于，所述心情反馈类型包括心情正反馈和心情负反馈；所述根据所述心情反馈类型，执行对应的语音输出操作或者节目输出操作的步骤，包括：

8.一种语音交互装置，其特征在于，所述语音交互装置，包括：

9.一种智能设备，其特征在于，所述智能设备包括处理器、存储单元、以及存储在所述存储单元上的可被所述处理器执行的语音交互程序，其中，所述语音交互程序被所述处理器执行时，实现如权利要求1至7中任一项所述的语音交互方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语音交互程序，其中，所述语音交互程序被处理器执行时，实现如权利要求1至7中任一项所述的语音交互方法的步骤。