CN111383346B

CN111383346B - 基于智能语音的交互方法、系统、智能终端和存储介质

Info

Publication number: CN111383346B
Application number: CN202010142515.0A
Authority: CN
Inventors: 徐会文; 杨春岭; 冯小勇; 景洪恩
Original assignee: Shenzhen Skyworth RGB Electronics Co Ltd
Current assignee: Shenzhen Skyworth RGB Electronics Co Ltd
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2024-03-12
Anticipated expiration: 2040-03-03
Also published as: CN111383346A

Abstract

本发明公开了一种基于智能语音的交互方法，该方法包括：接收用户触发的语音指令，并获取所述语音指令中的场景信息；根据所述场景信息从预设模型中匹配出相应场景下的推送内容；将所述推送内容与预设的目标虚拟人物进行合成，并将合成后的动态虚拟人物显示在用户界面。本发明还公开了一种基于智能语音的交互系统、智能终端以及计算机可读存储介质。本发明使得智能终端的语音交互界面更为生动有趣，提高用户的使用体验。

Description

基于智能语音的交互方法、系统、智能终端和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于智能语音的交互方法、系统、智能终端及计算机存储介质。

背景技术

随着智能语音技术的发展，其运用也越来越普遍，现在在众多电子产品上已实现该功能，但目前各电视厂家和手机厂家的智能语音交互界面比较单一，除了基本的语音交互外没有相对应的用户界面，或者与用户界面中的3D虚拟人物没有互动，这样使得用户的使用体验极大受限。

因此，如何在智能语音交互时实现3D虚拟人物的自动匹配和人物互动，成为亟待解决的技术问题。

发明内容

本发明的主要目的在于提供一种基于智能语音的交互方法、系统、智能终端及存储介质，旨在解决现有的智能终端的语音交互界面单一的技术问题。

为实现上述目的，本发明提供一种基于智能语音的交互方法，所述基于智能语音的交互方法包括以下步骤：

接收用户触发的语音指令，并获取所述语音指令中的场景信息；

根据所述场景信息从预设模型中匹配出相应场景下的推送内容；

将所述推送内容与预设的目标虚拟人物进行合成，并将合成后的动态虚拟人物显示在用户界面。

可选地，所述接收用户触发的语音指令，并获取所述语音指令中的场景信息的步骤，包括：

对所述语音指令进行解析，获取所述语音指令的语义；

根据所述语义确定与所述语义关联的场景信息。

对所述语音指令进行解析，获取所述语音指令的语义；

根据所述语义确定与所述语义关联的场景信息。

可选地，所述根据所述场景信息从预设模型中匹配出相应场景下的推送内容的步骤，包括：

将所述场景信息与预设模型中的场景信息进行匹配，确定所述场景信息对应的多模态行为数据，其中，所述预设模型中包含场景信息与多模态行为数据的映射关系表，所述多模态行为数据包括表情包关联指令、肢体动作关联指令和口型关联指令中至少一种；

将所述多模态行为数据作为推送内容。

可选地，所述根据所述场景信息从预设模型中匹配出相应场景下的推送内容的步骤，还包括：

将所述场景信息与预设模型中的场景信息进行匹配，确定所述场景信息对应的目标宣传样片，其中，所述预设模型中包含场景信息与宣传样片的映射关系表；

将所述目标宣传样片作为推送内容。

可选地，在所述将所述推送内容与预设的目标虚拟人物进行合成，并将合成后的动态虚拟人物显示在用户界面的步骤之前，包括：

识别所述语音指令中的音色，确定用户的性别；

根据所述性别从预设的虚拟人物数据库中匹配出与所述性别对应的目标虚拟人物。

可选地，在所述将所述推送内容与预设的目标虚拟人物进行合成，并将合成后的动态虚拟人物显示在用户界面的步骤之前，还包括：

在接收到用户触发的语音指令时，启动摄像装置对用户进行拍照，获取用户图像信息；

对所述用户图像信息进行识别，确定用户的性别；

可选地，所述虚拟人物为3D虚拟人物。

此外，为实现上述目的，本发明还提供一种基于智能语音的交互系统，所述基于智能语音的交互系统包括智能终端和云端服务器，

所述智能终端，用于接收用户触发的语音指令，并将所述语音指令上传至云端服务器；

所述云端服务器，用于获取所述语音指令中的场景信息；根据所述场景信息从预设模型中匹配出相应场景下的推送内容；

所述智能终端，用于接收所述云端服务器反馈的推送内容，将所述推送内容与预设的目标虚拟人物进行合成，并将合成后的动态虚拟人物显示在用户界面。

此外，为实现上述目的，本发明还提供一种智能终端，所述智能终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于智能语音的交互程序，所述基于智能语音的交互程序被所述处理器执行时实现如上所述的基于智能语音的交互方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于智能语音的交互程序，所述基于智能语音的交互程序被处理器执行时实现上述的基于智能语音的交互方法的步骤。

本发明提供了一种基于智能语音的交互方法、系统、智能终端和存储介质。在该方法中，通过接收用户触发的语音指令，并获取所述语音指令中的场景信息；根据所述场景信息从预设模型中匹配出相应场景下的推送内容；将所述推送内容与预设的目标虚拟人物进行合成，并将合成后的动态虚拟人物显示在用户界面。通过上述方式，本发明通过接收用户触发的语音指令，根据语音指令中的场景信息从预设模型中获取与场景信息有关的推送内容，再将推送内容与智能终端中的预设目标虚拟人物进行合成，形成一个可以与用户进行语音互动的动态虚拟人物，从而使得智能终端的语音交互界面更为生动有趣，提高用户的使用体验。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的智能终端结构示意图；

图2为本发明基于智能语音的交互方法第一实施例的流程示意图；

图3为本发明基于智能语音的交互方法第二实施例的流程示意图；

图4为本发明基于智能语音的交互方法一实施例中女性虚拟人物的效果示意图；

图5为本发明基于智能语音的交互方法第三实施例的流程示意图；

图6为本发明基于智能语音的交互系统第一实施例的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的智能终端结构示意图。

本发明实施例智能终端可以是智能电视，也可以是PC、智能手机、平板电脑、便携计算机等具有智能语音功能的终端设备。

如图1所示，该智能终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，智能终端还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、Wi-Fi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在移动终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，智能终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对智能终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于智能语音的交互程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的基于智能语音的交互程序，并执行以下操作：

进一步地，处理器1001可以调用存储器1005中存储的基于智能语音的交互程序，还执行以下操作：

对所述语音指令进行解析，获取所述语音指令的语义；

根据所述语义确定与所述语义关联的场景信息。

将所述多模态行为数据作为推送内容。

将所述目标宣传样片作为推送内容。

识别所述语音指令中的音色，确定用户的性别；

对所述用户图像信息进行识别，确定用户的性别；

所述虚拟人物为3D虚拟人物。

本发明智能终端的具体实施例与下述基于智能语音的交互方法各实施例基本相同，在此不作赘述。

参照图2，图2为本发明基于智能语音的交互方法第一实施例的流程示意图，所述基于智能语音的交互方法包括：

步骤S10，接收用户触发的语音指令，并获取所述语音指令中的场景信息。

本发明实施例智能终端可以是智能电视，也可以是PC、智能手机、平板电脑、便携计算机等具有智能语音功能的终端设备。为方便说明，后续实施例均以智能电视为例。该智能电视中预设有智能语音模块，能根据用户的语音指令作出语音应答，并且该智能电视中还预设有虚拟人物数据库和多模态行为数据库，用于智能电视在与用户进行语音交互时，用户界面呈现出动态的虚拟人物，与用户进行互动。智能电视实时接收用户触发的语音指令，在获取到用户的语音指令后，对所述语音指令进行解析，获取所述语音指令的语义，确定语义后根据所述语义确定与所述语义关联的场景信息。需要说明的是，解析语音指令的语义和获取关联的场景信息的步骤可以由智能电视中预设的智能语音模块完成，也可以由独立于该智能语音模块外的代码完成。此处的场景信息包括聊天内容的主题、用户的意图、用户的心情等。

步骤S20，根据所述场景信息从预设模型中匹配出相应场景下的推送内容。

智能电视中预设有场景信息分析模型，该模型是基于神经网络学习得到，能根据聊天内容的主题、用户的意图、用户的心情等寻找与之匹配的推送内容。在本实施例中，优选多模态行为数据作为推送内容。具体地，将所述场景信息与预设模型中的场景信息进行匹配，确定所述场景信息对应的多模态行为数据，其中，所述预设模型中包含场景信息与多模态行为数据的映射关系表，将所述多模态行为数据作为推送内容。需要说明的是，所述多模态行为数据包括表情包关联指令、肢体动作关联指令和口型关联指令中至少一种，本实施例中优选将表情包、肢体动作和口型作为目标虚拟人物的多模态行为，共同来支配目标虚拟人物的行为动作，当然，也可以是选择表情包、肢体动作和口型中任何一种和两种来作为目标虚拟人物的多模态行为。由此智能电视可以根据用户语音实现对目标虚拟人物的行为动作的支配，以生成动态的虚拟人物来与用户进行互动。

当然，作为另一种实施方式，可以将多模态行为数据和目标宣传样片一同作为推送内容。具体地，将所述场景信息与预设模型中的场景信息进行匹配，确定所述场景信息对应的多模态行为数据和目标宣传样片，其中，所述预设模型中包含场景信息、多模态行为数据和宣传样片的映射关系表；将所述多模态行为数据和目标宣传样片作为推送内容。需要说明的是，智能电视或者与智能电视连接的云端服务器中预存有各个场景信息关联的宣传样本，在智能电视将语音指令中的场景信息与预设模型中的场景信息进行匹配后，可以根据预设模型中匹配出来的场景信息确定目标宣传样本。由此智能电视可以根据用户语音实现对目标虚拟人物的行为动作的支配，以生成动态的虚拟人物来与用户进行互动，同时，可以根据用户意图获取相应的宣传样本进行播放，实现产品推广和品牌形象推广。

步骤S30，将所述推送内容与预设的目标虚拟人物进行合成，并将合成后的动态虚拟人物显示在用户界面。

在获取到推送内容后，将推送内容与预设的目标虚拟人物进行合成。需要说明的是，若推送内容仅多模态行为数据，则该步骤就是根据多模态行为数据对目标虚拟人物进行行为支配，如根据表情包关联指令获取相应表情包赋予给目标虚拟人物的脸部，根据肢体动作关联指令获取相应肢体动作赋予给目标虚拟人物的四肢，根据口型关联指令获取相应口型赋予给目标虚拟人物的口部等。若推送内容为多模态行为数据和目标宣传样本，则该步骤就是根据多模态行为数据对目标虚拟人物进行行为支配，同时将动态的虚拟人员和目标宣传样本进行合成。最后将合成后的动态效果显示在用户界面上。

本实施例通过接收用户触发的语音指令，根据语音指令中的场景信息从预设模型中获取与场景信息有关的推送内容，再将推送内容与智能终端中的预设目标虚拟人物进行合成，形成一个可以与用户进行语音互动的动态虚拟人物，从而使得智能终端的语音交互界面更为生动有趣，提高用户的使用体验。

请参阅图3，图3为本发明基于智能语音的交互方法第二实施例的流程示意图。基于上述图2所示的实施例，在所述步骤S30将所述推送内容与预设的目标虚拟人物进行合成，并将合成后的动态虚拟人物显示在用户界面之前，包括：

步骤S40，识别所述语音指令中的音色，确定用户的性别。

步骤S50，根据所述性别从预设的虚拟人物数据库中匹配出与所述性别对应的目标虚拟人物。

本实施例在获取到用户的语音指令后，识别语音指令中的音色，由此确定用户的性别。在确定用户的性别后，从预设的虚拟人物数据库中匹配出与所述性别对应的目标虚拟人物。需要说明的是，预设的虚拟人物数据库中包含有多个女性虚拟人物和男性虚拟人物，优选地，所述虚拟人物为3D虚拟人物。如图4所示，图4为虚拟人物数据库中一女性虚拟人物的效果示意图。本发明可以选取与用户性别相同或者相反的虚拟人物作为目标虚拟人物，本实施例中优选与用户性别相反的虚拟人物作为目标虚拟人物。因为使用异性的虚拟人物与用户互动更能吸引用户，满足用户的心理需求。

请参阅图5，图5为本发明基于智能语音的交互方法第三实施例的流程示意图。基于上述图2所示的实施例，在所述步骤S30将所述推送内容与预设的目标虚拟人物进行合成，并将合成后的动态虚拟人物显示在用户界面之前，包括：

步骤S60，在接收到用户触发的语音指令时，启动摄像装置对用户进行拍照，获取用户图像信息。

在接收到用户触发的语音指令时，启动摄像装置对用户进行拍照，获取用户图像信息，即每接收到用户的语音指令，就会对用户进行拍照。优选地，在间隔预设时长后首次接收到语音指令时才启动摄像装置，有效避免频繁启动摄像装置，延长摄像装置的使用年限。

步骤S70，对所述用户图像信息进行识别，确定用户的性别。

步骤S80，根据所述性别从预设的虚拟人物数据库中匹配出与所述性别对应的目标虚拟人物。

本实施例中通过摄像装置获取用户图像信息，由此确定用户的性别。在确定用户的性别后，从预设的虚拟人物数据库中匹配出与所述性别对应的目标虚拟人物。需要说明的是，预设的虚拟人物数据库中包含有多个女性虚拟人物和男性虚拟人物，优选地，所述虚拟人物为3D虚拟人物。本发明可以选取与用户性别相同或者相反的虚拟人物作为目标虚拟人物，本实施例中优选与用户性别相反的虚拟人物作为目标虚拟人物。因为使用异性的虚拟人物与用户互动更能吸引用户，满足用户的心理需求。

请参阅图6，图6为本发明基于智能语音的交互系统第一实施例的结构示意图。所述基于智能语音的交互系统包括智能终端和云端服务器，与上述智能终端的实施例不同的是，上述基于智能语音的交互方法的步骤是由智能终端与云端服务器共同完成，所述基于智能语音的交互系统中的智能终端仅仅只是执行接收用户触发的语音指令，并将所述语音指令上传至云端服务器步骤和接收所述云端服务器反馈的推送内容，将所述推送内容与预设的目标虚拟人物进行合成，并将合成后的动态虚拟人物显示在用户界面步骤。

具体地，所述智能终端，用于接收用户触发的语音指令，并将所述语音指令上传至云端服务器。

智能电视实时接收用户触发的语音指令，在获取到用户的语音指令后，将所述语音指令上传至云端服务器。

所述云端服务器，用于获取所述语音指令中的场景信息；根据所述场景信息从预设模型中匹配出相应场景下的推送内容。

云端服务器接收智能电视上传的语音指令，对所述语音指令进行解析，获取所述语音指令的语义，确定语义后根据所述语义确定与所述语义关联的场景信息。需要说明的是，解析语音指令的语义和获取关联的场景信息的步骤可以由智能电视中预设的智能语音模块完成，也可以由独立于该智能语音模块外的代码完成。此处的场景信息包括聊天内容的主题、用户的意图、用户的心情等。

云端服务器中预设有场景信息分析模型，该模型是基于神经网络学习得到，能根据聊天内容的主题、用户的意图、用户的心情等寻找与之匹配的推送内容。在本实施例中，优选多模态行为数据作为推送内容。具体地，将所述场景信息与预设模型中的场景信息进行匹配，确定所述场景信息对应的多模态行为数据，其中，所述预设模型中包含场景信息与多模态行为数据的映射关系表，将所述多模态行为数据作为推送内容。需要说明的是，所述多模态行为数据包括表情包关联指令、肢体动作关联指令和口型关联指令中至少一种，本实施例中优选将表情包、肢体动作和口型作为目标虚拟人物的多模态行为，共同来支配目标虚拟人物的行为动作，当然，也可以是选择表情包、肢体动作和口型中任何一种和两种来作为目标虚拟人物的多模态行为。由此智能电视可以根据用户语音实现对目标虚拟人物的行为动作的支配，以生成动态的虚拟人物来与用户进行互动。

当然，作为另一种实施方式，可以将多模态行为数据和目标宣传样片一同作为推送内容。具体地，将所述场景信息与预设模型中的场景信息进行匹配，确定所述场景信息对应的多模态行为数据和目标宣传样片，其中，所述预设模型中包含场景信息、多模态行为数据和宣传样片的映射关系表；将所述多模态行为数据和目标宣传样片作为推送内容。需要说明的是，云端服务器中预存有各个场景信息关联的宣传样本，在云端服务器将语音指令中的场景信息与预设模型中的场景信息进行匹配后，可以根据预设模型中匹配出来的场景信息确定目标宣传样本。由此智能电视可以根据用户语音实现对目标虚拟人物的行为动作的支配，以生成动态的虚拟人物来与用户进行互动，同时，可以根据用户意图获取相应的宣传样本进行播放，实现产品推广和品牌形象推广。

智能电视接收云端服务器反馈的推送内容，在获取到推送内容后，将推送内容与预设的目标虚拟人物进行合成。需要说明的是，若推送内容仅多模态行为数据，则该步骤就是根据多模态行为数据对目标虚拟人物进行行为支配，如根据表情包关联指令获取相应表情包赋予给目标虚拟人物的脸部，根据肢体动作关联指令获取相应肢体动作赋予给目标虚拟人物的四肢，根据口型关联指令获取相应口型赋予给目标虚拟人物的口部等。若推送内容为多模态行为数据和目标宣传样本，则该步骤就是根据多模态行为数据对目标虚拟人物进行行为支配，同时将动态的虚拟人员和目标宣传样本进行合成。最后将合成后的动态效果显示在用户界面上。

此外，本发明实施例还提出一种计算机可读存储介质。所述计算机可读存储介质上存储有基于智能语音的交互程序，所述基于智能语音的交互程序被处理器执行时实现如下步骤：

进一步地，所述基于智能语音的交互程序被处理器执行时，还实现如下步骤：

对所述语音指令进行解析，获取所述语音指令的语义；

根据所述语义确定与所述语义关联的场景信息。

将所述多模态行为数据作为推送内容。

将所述目标宣传样片作为推送内容。

识别所述语音指令中的音色，确定用户的性别；

对所述用户图像信息进行识别，确定用户的性别；

所述虚拟人物为3D虚拟人物。

本发明计算机可读存储介质的具体实施例与上述基于智能语音的交互方法各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于智能语音的交互方法，其特征在于，所述基于智能语音的交互方法包括：

其中，所述根据所述场景信息从预设模型中匹配出相应场景下的推送内容的步骤，还包括：

将所述多模态行为数据和/或所述目标宣传样片作为推送内容；

将所述推送内容与预设的目标虚拟人物进行合成，并将合成后的动态虚拟人物显示在用户界面；

其中，所述将所述推送内容与预设的目标虚拟人物进行合成的步骤，包括：

若所述推送内容为多模态行为数据，则根据所述多模态行为数据对目标虚拟人物进行行为支配，其中，所述行为支配包括根据所述表情包关联指令获取相应表情包赋予给所述目标虚拟人物的脸部，根据所述肢体动作关联指令获取相应肢体动作赋予给所述目标虚拟人物的四肢，根据所述口型关联指令获取相应口型赋予给所述目标虚拟人物的口部；

若所述推送内容为多模态行为数据和目标宣传样片，则根据所述多模态行为数据对目标虚拟人物进行行为支配，并将动态的虚拟人员和所述目标宣传样片进行合成；

其中，所述接收用户触发的语音指令，并获取所述语音指令中的场景信息的步骤，包括：

对所述语音指令进行解析，获取所述语音指令的语义；

根据所述语义确定与所述语义关联的场景信息，其中，所述场景信息包括聊天内容的主题、用户的意图和用户的心情。

2.如权利要求1所述的基于智能语音的交互方法，其特征在于，在所述将所述推送内容与预设的目标虚拟人物进行合成，并将合成后的动态虚拟人物显示在用户界面的步骤之前，包括：

识别所述语音指令中的音色，确定用户的性别；

3.如权利要求1所述的基于智能语音的交互方法，其特征在于，在所述将所述推送内容与预设的目标虚拟人物进行合成，并将合成后的动态虚拟人物显示在用户界面的步骤之前，还包括：

对所述用户图像信息进行识别，确定用户的性别；

4.如权利要求1至3中任一所述的基于智能语音的交互方法，其特征在于，所述虚拟人物为3D虚拟人物。

5.一种基于智能语音的交互系统，其特征在于，所述基于智能语音的交互系统包括智能终端和云端服务器，

所述智能终端，用于接收用户触发的语音指令，并将所述语音指令上传至云端服务器，其中，所述智能终端具体用于对所述语音指令进行解析，获取所述语音指令的语义；根据所述语义确定与所述语义关联的场景信息，其中，所述场景信息包括聊天内容的主题、用户的意图和用户的心情；

所述云端服务器，用于获取所述语音指令中的场景信息；根据所述场景信息从预设模型中匹配出相应场景下的推送内容，其中，所述云端服务器具体用于将所述场景信息与预设模型中的场景信息进行匹配，确定所述场景信息对应的多模态行为数据，其中，所述预设模型中包含场景信息与多模态行为数据的映射关系表，所述多模态行为数据包括表情包关联指令、肢体动作关联指令和口型关联指令中至少一种；将所述场景信息与预设模型中的场景信息进行匹配，确定所述场景信息对应的目标宣传样片，其中，所述预设模型中包含场景信息与宣传样片的映射关系表；将所述多模态行为数据和/或所述目标宣传样片作为推送内容；

所述智能终端，用于接收所述云端服务器反馈的推送内容，将所述推送内容与预设的目标虚拟人物进行合成，并将合成后的动态虚拟人物显示在用户界面，其中，所述智能终端具体用于若所述推送内容为多模态行为数据，则根据所述多模态行为数据对目标虚拟人物进行行为支配，其中，所述行为支配包括根据所述表情包关联指令获取相应表情包赋予给所述目标虚拟人物的脸部，根据所述肢体动作关联指令获取相应肢体动作赋予给所述目标虚拟人物的四肢，根据所述口型关联指令获取相应口型赋予给所述目标虚拟人物的口部；若所述推送内容为多模态行为数据和目标宣传样片，则根据所述多模态行为数据对目标虚拟人物进行行为支配，并将动态的虚拟人员和所述目标宣传样片进行合成。

6.一种智能终端，其特征在于，所述智能终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于智能语音的交互程序，所述基于智能语音的交互程序被所述处理器执行时实现如权利要求1至4中任一项所述基于智能语音的交互方法的步骤。

7.一种计算机可读存储介质，其上存储有基于智能语音的交互程序，其特征在于，所述基于智能语音的交互程序被处理器执行时实现如权利要求1至4中任一项所述基于智能语音的交互方法的步骤。