CN110673716B

CN110673716B - 智能终端与用户交互的方法、装置、设备及存储介质

Info

Publication number: CN110673716B
Application number: CN201810716586.XA
Authority: CN
Inventors: 陈思利; 林�源; 张永杰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-07-03
Filing date: 2018-07-03
Publication date: 2023-07-07
Anticipated expiration: 2038-07-03
Also published as: CN110673716A

Abstract

本申请实施例提供了一种智能终端与用户交互的方法、装置、设备及存储介质。该方法包括：采用全息影像技术展示虚拟三维视觉形象；采集用户语音信息和/或用户图像信息；根据用户语音信息和/或用户图像信息对用户语义和/或用户表情及肢体动作进行识别；根据识别结果控制虚拟三维视觉形象进行相应的回应。由于在智能终端的上方能够显示虚拟三维视觉形象，通过该虚拟三维视觉形象与用户进行交互并进行回应，能够使智能终端与用户交互更加真实，提高交互的真实性，进而提高用户体验。

Description

智能终端与用户交互的方法、装置、设备及存储介质

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种智能终端与用户交互的方法、装置、设备及存储介质。

背景技术

随着人工智能技术的发展，人们对智能终端的要求越来越高，智能终端能够更智能化的为人们服务已成为人工智能技术的重要目标。

智能终端能够更智能化的为人们服务很重要的一点体现在与用户的交互上。现有的智能终端与用户进行交互的过程中，主要是在智能终端上安装显示屏或麦克风，通过显示屏或麦克风与用户进行交互，如在智能音响上方安装一个显示屏，通过在显示屏上显示信息与用户进行交互。

所以现有的智能终端与用户交互过程中，智能终端并没有一个更加形象的三维事物的显示，导致智能终端与用户进行交流和互动过程并不是很真实，从而导致交互性较差，用户体验较差。

发明内容

本申请实施例提供一种智能终端与用户交互的方法、装置、设备及存储介质，解决了现有的智能终端与用户交互过程中，智能终端并没有一个更加形象的虚拟三维事物的显示，导致智能终端与用户进行交流和互动过程并不是很真实，从而导致交互性较差，用户体验较差的技术问题。

本申请实施例第一方面提供一种智能终端与用户交互的方法，包括：采用全息影像技术展示虚拟三维视觉形象；采集用户语音信息和/或用户图像信息；根据所述用户语音信息和/或用户图像信息对用户语义和/或用户表情及肢体动作进行识别；根据识别结果控制所述虚拟三维视觉形象进行相应的回应。

本申请实施例第二方面提供一种智能终端与用户交互的装置，包括：三维形象展示模块，用于采用全息影像技术展示虚拟三维视觉形象；信息采集模块，用于采集用户语音信息和/或用户图像信息；识别模块，用于根据所述用户语音信息和/或用户图像信息对用户语义和/或用户表情及肢体动作进行识别；三维形象回应模块，用于根据识别结果控制所述虚拟三维视觉形象进行相应的回应。

本申请实施例第三方面提供一种终端设备，包括：全息金字塔，麦克风和/或摄像头及控制器；所述全息金字塔，用于展示虚拟三维视觉形象；所述麦克风，用于采集用户语音信息；所述摄像头，用于拍摄用户图像信息；所述控制器包括存储器和处理器，其中所述存储器存储有计算机程序，所述程序被所述处理器执行时实现如上述第一方面所述的方法。

本申请实施例第四方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行如上述第一方面所述的方法。

基于以上各方面，本申请实施例通过采用全息影像技术展示虚拟三维视觉形象；采集用户语音信息和/或用户图像信息；根据用户语音信息和/或用户图像信息对用户语义和/或用户表情及肢体动作进行识别；根据识别结果控制虚拟三维视觉形象进行相应的回应。由于在智能终端的上方能够显示虚拟三维视觉形象，通过该虚拟三维视觉形象与用户进行交互并进行回应，能够使智能终端与用户交互更加真实，提高交互的真实性，进而提高用户体验。

应当理解，上述发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征，亦非用于限制本申请的范围。本申请的其它特征将通过以下的描述变得容易理解。

附图说明

图1为本申请实施例一提供的智能终端与用户交互的方法的流程图；

图2为本申请实施例二提供的智能终端与用户交互的方法的流程图；

图3为本申请实施例三提供的智能终端与用户交互的装置的结构示意图；

图4为本申请实施例四提供的智能终端与用户交互的装置的结构示意图；

图5为本申请实施例五提供的一种终端设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例，然而应当理解的是，本申请可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是，本申请的附图及实施例仅用于示例性作用，并非用于限制本申请的保护范围。

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了清楚理解本申请的技术方案，下面对本申请中涉及的算法进行解释。

全息金字塔：它是由透明材料制成的四面锥体，观众的视线能从任何一面穿透它，通过表面反射原理，观众能从锥形空间里看到自由飘浮的影像和图形。四面视频成像将光信号反射到这个锥体中的特殊棱镜上，汇集到一起后形成具有真实维度空间的三维视觉形象。

全息影像技术是利用干涉和衍射原理记录并再现物体真实的三维图像的记录和再现的技术。其第一步是利用干涉原理记录物体光波信息，此即拍摄过程：被摄物体在激光辐照下形成漫射式的物光束；另一部分激光作为参考光束射到全息底片上，和物光束叠加产生干涉，把物体光波上各点的位相和振幅转换成在空间上变化的强度，从而利用干涉条纹间的反差和间隔将物体光波的全部信息记录下来。

深度学习算法：深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务。

以下将参照附图来具体描述本申请的实施例。

实施例一

图1为本申请实施例一提供的智能终端与用户交互的方法的流程图，如图1所示，本申请实施例的执行主体为智能终端与用户交互的装置，该智能终端与用户交互的装置可以集成在智能终端中。该智能终端可以为智能音响，还可以为其他智能终端，本实施例中对此不做限定。则本实施例提供的智能终端与用户交互的方法包括以下几个步骤。

步骤101，采用全息影像技术展示虚拟三维视觉形象。

具体地，本实施例中，在智能终端上设置有全息影像单元，该全息影像单元可以为全息金字塔，利用全息金字塔的全息影像技术可生成虚拟三维视觉形象，并可将该虚拟三维视觉形象展示在该全息金字塔的上方的中心。

其中，该全息金字塔为四棱锥金字塔，它是由透明材料制成的四面锥体。其中，虚拟三维视觉形象可以为预先设计的卡通形象或人物形象或其他事物形象，本实施例中对此不做限定。

步骤102，采集用户语音信息和/或用户图像信息。

本实施例中，可只采集用户语音信息或只采集用户图像信息，或同时采集用户语音信息和用户图像信息。

具体地，本实施例中，可在智能终端上设置一个或多个麦克风和/或摄像头，麦克风用于采集用户语音信息，摄像头用于采集用户图像信息。

步骤103，根据用户语音信息和/或用户图像信息对用户语义和/或用户表情及肢体动作进行识别。

具体地，本实施例中，若只采取了用户语音信息，则可采用机器学习算法对用户语音信息中的语义进行识别。若只采集了用户图像信息，则可采用机器学习算法对用户图像信息中的表情及肢体动作进行识别。若既采集了用户语音信息又采集了用户图像信息，则采用机器学习的算法对用户语音信息中的用户语义及用户图像信息中的表情及肢体动作进行识别。

在采用机器学习对用户语义和/或用户表情及肢体动作进行识别时，该机器学习模型是经过训练和测试后的优化后的模型。

其中，肢体动作可以为手部动作或全身动作，本实施例中对此不做限定。

可以理解的是，本实施例中，也可采用其他算法对用户语义和/或用户表情及肢体动作进行识别。

步骤104，根据识别结果控制虚拟三维视觉形象进行相应的回应。

具体地，本实施例中，预先存储了每种用户语义对应的虚拟三维视觉形象的回应，或每种用户表情及肢体动作对应的虚拟三维视觉形象的回应。或每种用户语义集合用户表情及肢体动作对应的虚拟三维视觉形象的回应。所以可根据识别结果查找对应的虚拟三维视觉形象的回应，并控制虚拟三维视觉形象进行相应的回应。

其中，虚拟三维视觉形象相应的回应可以为语音回应，或进行操作回应。操作回应可以为控制智能终端上闹铃，控制智能终端拨打电话，播放音乐等。

本实施例提供的智能终端与用户交互的方法，通过采用全息影像技术展示虚拟三维视觉形象；采集用户语音信息和/或用户图像信息；根据用户语音信息和/或用户图像信息对用户语义和/或用户表情及肢体动作进行识别；根据识别结果控制虚拟三维视觉形象进行相应的回应。由于在智能终端的上方能够显示虚拟三维视觉形象，通过该虚拟三维视觉形象与用户进行交互并进行回应，能够使智能终端与用户交互更加真实，提高交互的真实性，进而提高用户体验。

实施例二

图2为本申请实施例二提供的智能终端与用户交互的方法的流程图，如图2所示，本实施例提供的智能终端与用户交互的方法，是在本申请智能终端与用户交互的方法实施例一的基础上，对步骤102-步骤104的进一步细化，并且还包括了根据用户语音信息和/或用户图像信息确定用户当前位置，根据用户当前位置调整虚拟三维视觉形象的方位，将虚拟三维视觉形象正对用户的步骤。则本实施例提供的智能终端与用户交互的方法包括以下步骤。

步骤201，采用全息影像技术展示虚拟三维视觉形象。

本实施例中，步骤201的实现方式与本申请实施例一提供的智能终端与用户交互的方法步骤101的实现方式相同，在此不再一一赘述。

步骤202，采集用户语音信息和/或用户图像信息。

进一步地，本实施例中，多个麦克风和/或摄像头沿周向方向均匀设置在智能终端上。若采集用户语音信息，则每个麦克风均采集用户语音信息，获取所有用户语音信息中音量最大的用户语音信息作为进行用户语义识别的用户语音信息。若采集用户图像信息，则每个摄像头均对周围环境进行拍摄形成图像，获取所有拍摄的图像中具有用户完整图像信息的图像作为进行用户表情及肢体动作识别的用户图像信息。

步骤203，根据用户语音信息和/或用户图像信息确定用户当前位置。

可选地，本实施例中，根据用户语音信息和/或用户图像信息确定用户当前位置，具体包括：

根据每个麦克风采集的用户语音信息中的音量信息和/或每个摄像头拍摄的图像信息中含有的用户图像信息确定用户当前位置。

具体地，本实施例中，若采集的是用户语音信息，则根据每个麦克风采集的语音信息中的音量信息确定用户当前位置。更为具体地，获取用户语音信息中最大音量的麦克风的位置，将该最大音量对应的麦克风的位置确定为用户当前位置。或者获取每个麦克风采集的用户语音信息对应的音量大小，根据每个麦克风采集的用户语音信息对应的音量大小的差值确定用户当前位置。本实施例中对此不做限定。若采集的用户图像信息，则根据每个摄像头拍摄的图像信息中含有的用户图像信息确定用户当前位置。更为具体地，去除摄像头中没有拍摄到用户图像信息的图像，将含有用户图像信息的图像进行解析及对比，确定用户当前位置是在某一摄像头正前面还是偏离摄像头正对面，若在某一个摄像头正前面，则确定该用户当前位置为该摄像头所在位置。若偏离摄像头正对面，则根据多个摄像头拍摄的用户图像信息中拍摄到的用户图像的角度和大小确定用户当前位置。若既采集用户语音信息又采集用户图像信息，则可通过用户语音信息及用户图像信息中的任一信息确定用户当前位置。

需要说明的是，本实施例中，用户当前位置为将用户投影到与麦克风或摄像头在同一平面上的当前位置。

步骤204，根据用户当前位置调整虚拟三维视觉形象的方位，将虚拟三维视觉形象正对用户。

可选地，本实施例中，根据用户当前位置调整虚拟三维视觉形象的方位，将虚拟三维视觉形象正对用户，包括：

首先，计算用户当前位置与虚拟三维视觉形象正面所处当前位置的相对位置。

其次，根据相对位置调整虚拟三维视觉形象的方位，将虚拟三维视觉形象正对用户。

具体地，本实施例中，全息金字塔通过控制光束发射方向使虚拟三维视觉形象能够绕中心轴进行旋转。计算用户当前位置与虚拟三维视觉形象正面在旋转周向上所处的当前位置的相对位置作为用户当前位置与虚拟三维视觉形象正面所处当前位置的相对位置。该相对位置中具有在旋转周向上的相对旋转角度信息。根据相对位置中的旋转周向上的相对旋转角度信息控制虚拟三维视觉形象沿中心轴旋转，将虚拟三维视觉形象正对用户。

步骤205，将用户语音信息和/或用户图像信息输入到优化后的深度学习模型中，采用优化后的深度学习模型对用户语义和/或用户表情及肢体动作进行识别，并输出识别结果。

本实施例中，步骤205是对本申请实施例一提供的智能终端与用户交互的方法中的步骤103的进一步地细化。

可选地，本实施例中，采用训练样本对深度学习模型进行训练，并采用测试样本对深度学习模型进行测试，在测试通过后，确定该深度学习模型为优化后的深度学习模型。将用户语音信息和/或用户图像信息输入到优化后的深度学习模型中，采用优化后的深度学习模型对用户语义和/或用户表情及肢体动作进行识别，并输出识别结果。由于深度学习模型为优化后的模型，所以能够有效提高识别的准确率。

步骤206，根据识别结果获取与识别结果对应的回答和/或操作，控制虚拟三维视觉形象进行与识别结果对应的回答和/或操作。

本实施例中，步骤206是对本申请实施例一提供的智能终端与用户交互的方法中的步骤104的进一步地细化。

可选地，由于预先存储了每种用户语义对应的虚拟三维视觉形象的回答和/或操作，或每种用户表情及肢体动作对应的虚拟三维视觉形象的回答和/或操作。或每种用户语义集合用户表情及肢体动作对应的虚拟三维视觉形象的回答和/或操作。所以可根据识别结果查找对应的虚拟三维视觉形象的回答和/或操作，并控制虚拟三维视觉形象进行对应的回答和/或操作。

其中，对应的回答可以为在用户发出问题时对应的语音答复，操作可以为根据用户语音指令或表情及肢体动作指令控制智能终端上闹铃，拨打电话，播放音乐等。

本实施例提供的一种智能终端与用户交互的方法，通过采用全息影像技术展示虚拟三维视觉形象，采集用户语音信息和/或用户图像信息，根据用户语音信息和/或用户图像信息确定用户当前位置，根据用户当前位置调整虚拟三维视觉形象的方位，将虚拟三维视觉形象正对用户，将用户语音信息和/或用户图像信息输入到优化后的深度学习模型中，采用优化后的深度学习模型对用户语义和/或用户表情及肢体动作进行识别，并输出识别结果，根据识别结果获取与识别结果对应的回答和/或操作，控制虚拟三维视觉形象进行与识别结果对应的回答和/或操作。由于在对用户语义和/或用户表情及肢体动作进行识别之前，将虚拟三维视觉形象正对用户，仿佛一个真实世界中的事物在跟用户交互，进一步提高了智能终端与用户交互过程中的真实性。

实施例三

图3为本申请实施例三提供的智能终端与用户交互的装置的结构示意图，如图3所示，本实施例提供的智能终端与用户交互的装置包括：三维形象展示模块31，信息采集模块32，识别模块33及三维形象回应模块34。

其中，三维形象展示模块31，用于采用全息影像技术展示虚拟三维视觉形象。信息采集模块32，用于采集用户语音信息和/或用户图像信息。识别模块33，用于根据用户语音信息和/或用户图像信息对用户语义和/或用户表情及肢体动作进行识别。三维形象回应模块34，用于根据识别结果控制虚拟三维视觉形象进行相应的回应。

本实施例提供的智能终端与用户交互的装置可以执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

实施例四

图4为本申请实施例四提供的智能终端与用户交互的装置的结构示意图，如图4所示，本实施例提供的智能终端与用户交互的装置在本申请实施例三提供的智能终端与用户交互的装置的基础上，进一步地，还包括：用户当前位置确定模块41及三维形象方位调整模块42。

可选地，用户当前位置确定模块41，用于根据用户语音信息和/或用户图像信息确定用户当前位置。三维形象方位调整模块42，用于根据用户当前位置调整虚拟三维视觉形象的方位，将虚拟三维视觉形象正对用户。

可选地，多个麦克风和/或摄像头沿周向方向均匀设置在智能终端上。用户当前位置确定模块41，具体用于：根据每个麦克风采集的用户语音信息中的音量信息和/或每个摄像头拍摄的图像信息中含有的用户图像信息确定用户当前位置。

可选地，三维形象方位调整模块42，具体用于：计算用户当前位置与虚拟三维视觉形象正面所处当前位置的相对位置；根据相对位置调整虚拟三维视觉形象的方位，将虚拟三维视觉形象正对用户。

可选地，识别模块33，具体用于：将用户语音信息和/或用户图像信息输入到优化后的深度学习模型中；采用优化后的深度学习模型对用户语义和/或用户表情及肢体动作进行识别，并输出识别结果。

可选地，三维形象回应模块34，具体用于：根据识别结果获取与识别结果对应的回答和/或操作；控制虚拟三维视觉形象进行与识别结果对应的回答和/或操作。

本实施例提供的智能终端与用户交互的装置可以执行图2所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

实施例五

图5为本申请实施例五提供的一种终端设备的结构示意图，如图5所示，本实施例提供的终端设备包括：全息金字塔51，麦克风52和/或摄像头53及控制器54。

其中，全息金字塔51，麦克风52和/或摄像头53分别与控制器54电连接。

其中，全息金字塔51，用于展示虚拟三维视觉形象。麦克风52，用于采集用户语音信息。摄像头53，用于拍摄用户图像信息。

其中，麦克风52可以为一个或多个，摄像头53可以为一个或多个。

本实施例中，控制器54包括存储器541和处理器542，其中存储器541存储有计算机程序，程序被处理器542执行时实现如本申请实施例一中的智能终端与用户交互的方法或本申请实施例二中的智能终端与用户交互的方法。

相关说明可以对应参见图1至图2的步骤所对应的相关描述和效果进行理解，此处不做过多赘述。

实施例六

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行以实现如本申请实施例一提供的智能终端与用户交互的方法或本申请实施例二提供的智能终端与用户交互的方法。

本实施例提供的计算机可读存储介质，通过采用全息影像技术展示虚拟三维视觉形象；采集用户语音信息和/或用户图像信息；根据用户语音信息和/或用户图像信息对用户语义和/或用户表情及肢体动作进行识别；根据识别结果控制虚拟三维视觉形象进行相应的回应。由于在智能终端的上方能够显示虚拟三维视觉形象，通过该虚拟三维视觉形象与用户进行交互并进行回应，能够使智能终端与用户交互更加真实，提高交互的真实性，进而提高用户体验。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种智能终端与用户交互的方法，多个麦克风和/或多个摄像头沿周向方向均匀设置在所述智能终端上，其特征在于，包括：

采用全息影像技术展示虚拟三维视觉形象；

所述多个麦克风中的每个麦克风采集用户语音信息和/或所述多个摄像头中的每个摄像头拍摄图像；

获取每个麦克风采集的用户语音信息对应的音量大小，根据每个麦克风采集的用户语音信息对应的音量大小的差值确定用户当前位置，和/或，去除所述多个摄像头拍摄的图像中没有拍摄到用户图像信息的图像，根据多个拍摄到用户图像信息的图像中用户图像的角度和大小确定用户当前位置；

计算用户当前位置与虚拟三维视觉形象正面在旋转周向上所处的当前位置的相对位置，所述相对位置中具有旋转周向上的相对旋转角度信息；

根据所述相对旋转角度信息控制光束发射方向使虚拟三维视觉形象旋转至正对所述用户的位置；

根据所述用户语音信息和/或用户图像信息对用户语义和/或用户表情及肢体动作进行识别；

根据识别结果获取与所述识别结果对应的回答和/或操作；所述智能终端上预存有用户语义和/或用户表情及肢体动作对应的虚拟三维视觉形象的回答和/或操作；

控制所述虚拟三维视觉形象进行与所述识别结果对应的回答和/或操作。

2.根据权利要求1所述的方法，其特征在于，所述根据所述用户语音信息和/或用户图像信息对用户语义和/或用户表情及肢体动作进行识别，包括：

将所述用户语音信息和/或用户图像信息输入到优化后的深度学习模型中；

采用所述优化后的深度学习模型对用户语义和/或用户表情及肢体动作进行识别，并输出所述识别结果。

3.一种智能终端与用户交互的装置，多个麦克风和/或多个摄像头沿周向方向均匀设置在所述智能终端上，其特征在于，包括：

三维形象展示模块，用于采用全息影像技术展示虚拟三维视觉形象；

信息采集模块，用于采集用户语音信息和/或用户图像信息，其中，所述多个麦克风中的每个麦克风均采集用户语音信息，所述多个摄像头中的每个摄像头均拍摄图像；

用户当前位置确定模块，用于获取每个麦克风采集的用户语音信息对应的音量大小，根据每个麦克风采集的用户语音信息对应的音量大小的差值确定用户当前位置，和/或，去除所述多个摄像头拍摄的图像中没有拍摄到用户图像信息的图像，根据多个拍摄到用户图像信息的图像中用户图像的角度和大小确定用户当前位置；

三维形象方位调整模块，用于计算用户当前位置与虚拟三维视觉形象正面在旋转周向上所处的当前位置的相对位置，所述相对位置中具有旋转周向上的相对旋转角度信息；

识别模块，用于根据所述用户语音信息和/或用户图像信息对用户语义和/或用户表情及肢体动作进行识别；

三维形象回应模块，用于根据识别结果获取与所述识别结果对应的回答和/或操作；所述智能终端上预存有用户语义和/或用户表情及肢体动作对应的虚拟三维视觉形象的回答和/或操作；

4.根据权利要求3所述的装置，其特征在于，所述识别模块，具体用于：

将所述用户语音信息和/或用户图像信息输入到优化后的深度学习模型中；采用所述优化后的深度学习模型对用户语义和/或用户表情及肢体动作进行识别，并输出所述识别结果。

5.一种终端设备，其特征在于，包括：全息金字塔，麦克风和/或摄像头及控制器；

所述全息金字塔，用于展示虚拟三维视觉形象；

所述麦克风，用于采集用户语音信息；

所述摄像头，用于拍摄用户图像信息；

所述控制器包括存储器和处理器，其中所述存储器存储有计算机程序，所述程序被所述处理器执行时实现如权利要求1-2任一项所述的方法。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行如权利要求1-2中任一项所述的方法。