CN112181127A

CN112181127A - 用于人机交互的方法和装置

Info

Publication number: CN112181127A
Application number: CN201910591314.6A
Authority: CN
Inventors: 李锋; 万化; 张琛; 胡瑛皓; 王震; 杨洋; 李旭佳
Original assignee: Shanghai Pudong Development Bank Co Ltd
Current assignee: Shanghai Pudong Development Bank Co Ltd
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2021-01-05

Abstract

本公开的实施例提供了用于人机交互的方法、装置和计算机可读存储介质。该方法包括：获取交互对象的输入，输入至少包括视频图像和语音输入；基于输入，确定交互对象是否通过验证；以及响应于确认交互对象通过验证，基于视频图像和语音输入，生成用于与交互对象进行交互的交互数据，交互数据至少包括语音数据和动作数据；以及渲染语音数据和动作数据，使得所输出的语音与所显示的三维虚拟人物的肢体动作和面部表情中的至少一项相关联。本公开的实施例能够准确能够综合交互对象的多模态输入，进行差异化的响应。

Description

用于人机交互的方法和装置

技术领域

本公开涉及人机交互，更具体地，涉及用于人机交互的方法、装置、计算机可读存储介质。

背景技术

传统的人机交互的方案例如是：交互设备响应于交互对象(例如用户)经由鼠标等所获取的输入，动态地进行三维图像的演示，以便更为直观地展示产品、吸引用户兴趣、或者提高用户体验。

传统的人机交互的方案一般仅针对交互对象的有限维度的输入进行响应，例如仅仅基于交互对象的触摸输入、语音输入或者文字输入来进行响应，无法综合交互对象的多模态输入而进行匹配响应，也无法针对差异性的交互对象进行差异性化响应，因此难以提高用户体验。

发明内容

本公开提供一种用于人机交互的方法和装置，能够综合交互对象的多模态输入，进行差异化的响应。

根据本公开的第一方面，提供了一种人机交互的方法。该方法包括：获取交互对象的输入，输入至少包括视频图像和语音输入；基于输入，确定交互对象是否通过验证；以及响应于确认交互对象通过验证，基于视频图像和语音输入，生成用于与交互对象进行交互的交互数据，交互数据至少包括语音数据和动作数据；以及渲染语音数据和动作数据，使得所输出的语音与所显示的三维虚拟人物的肢体动作和面部表情中的至少一项相关联。

根据本发明的第二方面，还提供一种用于人机交互的装置。该设备包括：存储器，被配置为存储一个或多个程序；处理单元，耦合至存储器并且被配置为执行一个或多个程序使系统执行根据本公开的第一方面的方法。

根据本公开的第三方面，提供了一种非瞬态计算机可读存储介质。该非瞬态计算机可读存储介质上存储有机器可执行指令，机器可执行指令在被执行时使机器执行根据本公开的第一方面的方法。

提供发明内容部分是为了简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征，也无意限制本公开的范围。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施例中，相同的参考标号通常代表相同部件。

图1示出了根据本公开的实施例的用于人机交互的系统100的架构图；

图2示出了根据本公开的实施例的用于人机交互的方法200的流程图；

图3示出了根据本公开的实施例的用于生成交互数据的方法300的流程图；

图4示出了根据本公开的实施例的用于确定口型信息的方法400的流程图；

图5示出了根据本公开的实施例的用于确定情绪数据的方法500的流程图；

图6示出了根据本公开的实施例的交互对象与三维虚拟人物的交互方法600的流程图；

图7示出了根据本公开的实施例的交互对象与三维虚拟人物的交互过程700的示意图；以及

图8示意性示出了适于用来实现本公开实施例的电子设备800的框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如上文所描述的，在传统的识别对象的方案中，仅针对交互对象的有限维度的输入(例如基于触摸输入、语音输入或者文字输入)，进行响应，无法综合交互对象的多模态输入进行响应，也无法针对差异性的交互对象进行差异性化的响应，难以提高用户体验。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个，本公开的示例实施例提出了一种用于人机交互的方案。在该方案中，获取交互对象的输入，输入至少包括视频图像和语音输入；基于输入，确定交互对象是否通过验证；以及响应于确认交互对象通过验证，基于视频图像和语音输入，生成用于与交互对象进行交互的交互数据，交互数据至少包括语音数据和动作数据；以及渲染语音数据和动作数据，使得所输出的语音与所显示的三维虚拟人物的肢体动作和面部表情中的至少一项相关联。

在上述方案中，通过基于通过验证的交互对象的视频图像和语音输入来生成三维虚拟人物的动作数据和语音数据，并且语音与动作数据经由渲染而相互协同，能够使得所显示的三维虚拟人物的动作和/或语音与交互对象的多维输入(语音和视频输入)相关联，进而能够针对差异性的输入进行差异性的响应，有利于提高用户体验。

图1示出了根据本公开的实施例的用于识别对象的系统100的架构图。如图1所示，系统100包括人机交互设备110、业务系统130、第三方系统140和142、用户终端150。人机交互设备110、业务系统130、第三方系统140和142和用户终端150通过网络160进行数据交互。

人机交互设备110用于与交互对象152(例如用户)进行交互。人机交互设备110例如而不限于是计算机、服务器。人机交互设备110可以具有一个或多个处理单元，包括诸如GPU、FPGA和ASIC等的专用处理单元以及诸如CPU的通用处理单元。另外，在人机交互设备110上也可以运行着一个或多个虚拟机。

在一些实施例中，人机交互设备110例如包括输入采集装置114、输出装置116、网络应用防护系统112、控制单元118、音视频渲染单元120和安全监控单元122。

在一些实施例中，人机交互设备110例如是基于三维虚拟人物进行交互的人机交互金融服务系统，其可以实时获取交互对象的语音、视频、文字、触控、位置等输入，当确定该交互对象通过验证时，基于输入生成交互数据，使得三维虚拟人物以“面对面”的方式为用户提供服务，例如响应于用户的视频和语音输入，例如通过插件组件(widget)展示的方式，向用户推荐优惠券、理财产品、闲聊、甚至协助用户进行叫车或者购物娱乐等。

输入采集装置114用于直接采集或经由网络获取交互对象152的输入。在一些实施例中，输入采集装置114可以获取交互对象的语音、视频图像、文字、触控、位置等信息。例如，语音和视频图像为实时流式数据，文字、触控、位置等信息为非实时数据。在一些实施例中，输入采集装置114例如包括用于获取交互对象152的视频图像的摄像装置、用于拾取交互对象152的语音输入的声音拾取器、用于接收交互对象152触控输入的鼠标、触敏显示器等。输入采集装置114还可以包括接收用户文字输入的键盘或按键等。在一些实施例中，输入采集装置114可以经由网络160获取交互对象152经由远程用户终端输入的输入数据。通过采用上述手段，人机交互设备110能够具备多种感知能力，例如可以获取声音、视觉、触控、文字、位置及其用户登录的其余信息等。

在一些实施例中，经由输入采集装置114所输入的输入数据包含：实时音视频数据流和非流式数据。例如，音视频等流式数据流可以采用网页即时通信(即WebRTC，其标准是WHATWG协议)方式，以便支持网页浏览器进行实时语音对话或视频对话的API，进而实现能够通过浏览器提供简单的javascript就可以达到实时通讯(RTC))能力，并且支持跨平台的应用。非流式数据例如可以使用WebRTC数据通道接口(即datachannel，其表示一个在两个节点之间的双向的数据通道)或者websocket(即HTML5所提供的一种在单个TCP连接上进行全双工通讯的协议)直连的方式。此外，非流式数据可以根据实际需要进一步扩展。通过采用上述配置，能够实现对HTML5兼容性好、适配性强、易于通过SDK形式嵌入各类型客户端的优势。

控制单元118用于基于输入采集装置114所获取的输入，生成交互数据。该交互数据至少包括语音数据和图像数据。在一些实施例中，该交互数据还包括：调度数据、业务展示数据。其中，调度数据用于调度业务系统或第三方API。语音数据和图像数据用于发送至音视频渲染单元120，以便进行音视频流的实时渲染(例如实现语音输出与三维虚拟人物的动作和面部表情的图像输出的协同)。业务展示数据例如用于发送至输出装置116以便展示给交互对象、或者回应交互对象。在一些实施例中，控制单元118还用于基于输入数据确定交互对象是否通过验证；只有确定交互对象通过验证之后，才基于输入生成调度数据、语音数据和图像数据和业务展示数据。

音视频渲染单元120用于渲染所获取的语音数据和动作数据，使得语音输出与所显示的三维虚拟人物的动作和面部表情中的至少一项相关联，例如协同。

输出装置116用于基于所获取的控制单元118的非实时的业务展示数据和音视频渲染单元120的实时的语音输出和图像输出，进行融合，以便生成呈现给交互对象的交互输出。在一些实施例中，交互输出包括：用于显示的文字、图标、图表(例如收益等业务报表)、表单、背景、特效(例如美颜元素、穿戴元素、天气特效、宠物图像等)、交互式控件(例如地图、优惠券)、时间、短信、二维码中的至少一项，以便向交互对象显示三维虚拟人物图像，输出与三维虚拟人物的动作和表情相关联的声音。

在一些实施例中，输出装置116获取音视频渲染单元120的非流式数据的输出和音视频渲染单元120输出的实时音视频流，并将非流式数据的输出和实时音视频流融合后向交互对象进行显示。例如，在带屏幕的设备上输出文字、图表、图标、以及带有背景的三维虚拟人物；以及在带有音箱的设备上输出语音、合成音乐；此外，还可以输出包括短信提醒、二维码、以及以数字形式提供的在其他平台/App上可使用的卡券、打车联系方式等。

网络应用防护系统112用于保障人机交互设备110对三维虚拟人物对外所有交互输出的数据安全。例如，网络应用防护系统112用于对交互输出进行加密，以及防护已知和未知的威胁攻击。在一些实施例中，网络应用防护系统112还配置有防止爬虫、机器人访问控制。在一些实施例中，网络应用防护系统112还可以请求或返回内容检查。例如响应于确认交互数据中包括用户敏感信息(至少包括信用卡信息、身份证信息、支付卡信息、用户个人信息、账户信息中的至少一项)、程序错误信息和开发备注信息中的至少一项，存储上述信息以便用于安全防护。通过采用上述手段，能够有效避免机密数据的泄露，匹配针对金融行业服务特殊的安全性要求。

安全监控单元122用于收集并存储控制单元118和音视频渲染单元120的交互数据，以便提供监管使用。在一些实施例中，安全监控单元122还可以通过人工干预将控制信号发送至控制单元118，完成各子系统或模块的接管控制。

业务系统130用于获取人机交互设备110所发送的调度数据，例如交互需求(诸如，基金业务、理财业务、存取款业务等)，以及基于调度数据(如业务需求)进行处理，以生成业务反馈信息，并将其反馈给人机交互设备110。业务系统130例如而不限于是一个或多个计算机、服务器。

第三方系统140和142用于经由网络与人机交互设备110进行数据交互。在一些实施例中，第三方系统140和142例如而不限于是提供互联网应用服务的服务器，例如，人机交互设备110可以通过向第三方系统140发送调度数据，例如打车信息，以用于协助交互对象进行叫车。

用户终端150用于经由网络与人机交互设备110进行数据交互。用户终端150例如而不限于是手机、计算机、服务器、PDA等。在一些实施例中，用户终端150的摄像头和音频拾取器可以获取交互对象的视频图像和声音，并将所获取的视频图像和声音经由网络160发送给人机交互设备110，当人机交互设备110确认交互对象通过验证后，基于所获取的视频图像和语音输入驱动三维虚拟人物而与交互对象152进行交互。

图2示出了根据本公开的实施例的用于人机交互的方法200的流程图。在图2中，各个动作例如由人机交互设备110执行。方法200还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在框202处，人机交互设备110获取交互对象的输入，输入至少包括视频图像和语音输入。在一些实施例中，输入还包括交互对象的触控输入、文字输入中的至少一项。例如，人机交互设备110经由输入采集装置114获取交互对象的语音、视频图像、文字、触控、位置等信息。其中，语音和视频图像为实时流式数据，文字、触控、位置等信息为非流式数据。在一些实施例中，交互对象例如利用智能手机、智能音箱或远程视频柜员机(VTM)所自带的设备的内置摄像头、声卡麦克风分别采集交互对象的视频图像、语音输入、文字、触控、位置等信息等输入数据，并将所采集的输入数据经由人机交互设备110的网络应用防护系统112发送至输入采集装置114。在一些实施例中，由人机交互设备110的输入采集装置114直接采集交互对象的语音、视频图像、文字、触控、位置等信息。在一些实施例中，所输入的文字、触控、位置等非流式数据可采用的格式如下表一所示。

表一

在一些实施例中，人机交互设备110可以如上述表一所示方式定义非流式数据的格式。通过采用非流式数据上述统一格式，人机交互设备110可以识别各个非流式数据的来源、目标、当前周期的标识(ID)、数据类型以及数据正文。

在框204处，人机交互设备110基于所获取的输入，确定交互对象是否通过验证。例如，人机交互设备110基于视频图像输入中所选取的多帧图像进行面部识别，然后基于面部识别结果确认交互对象是否是已注册用户(例如是否是银行的已有客户)。例如，人机交互设备110获取多个已注册用户的视频图像，在每个已注册用户的视频图像中选取多帧图像，确定多帧图像内的人脸区域；然后对检测到的与人脸相关的图像进行分割，以形成人脸参考图像；然后用多个与注册用户相关联的人脸参考图像作为样本训练分类模型，以便利用该经训练的分类模型基于所获取的交互对象的视频图像进行人脸识别，进而确认该交互对象是否是注册用户。在一些实施例中，人机交互设备110还可以基于交互对象的指纹或者密码输入来确定交互对象是否通过验证。通过基于所获取的交互对象的输入来对交互对象的身份进行验证，能够有效保证人机交互的数据安全，使得该人机交互方法符合金融行业服务的安全性要求。

在框206处，人机交互设备110响应于确认交互对象通过验证，基于视频图像和语音输入，生成用于与交互对象进行交互的交互数据，交互数据至少包括语音数据和动作数据。例如，人机交互设备110可以通过声纹技术和自动语音识别(ASR)两种技术，分别提供基于声音的验证以及自然语言识别。例如，人机交互设备110对所获取的交互对象的语音信号进行滤波、分帧等音频数据预处理，然后将待分析的音频信号从原始语音信号中提取出来。例如，对交互对象的语音信号进行首尾端的静音切除、声音分帧，使得各帧之间有交叠。对经预处理的音频信号进行特征提取，以便为声学模型提供特征向量。例如，基于线性预测倒谱系数(LPCC)和Mel频谱倒谱系数(MFCC)，生成包含声音信息的多维向量。然后基于声学模型、字典和语言模型对所提取的特征后的音频数据进行文字输出，以确定用于转换为交互对象的语音信号的对应的文本信息。

在一些实施例中，生成用于与交互对象交互的交互数据的方式例如如图3所示。以下结合图3来描述生成交互数据的方法300。图3示出了根据本公开的实施例的用于生成交互数据的方法300的流程图。在图3中，各个动作例如由人机交互设备110执行。方法300还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

如图3所示，在框302处，基于所获取的输入，确认交互对象的业务需求。例如基于经由交互对象的语音输入转换而生成的对应文本信息，确认交互对象的业务需求例如为“账户余额查询”。在框304处，将业务需求发送给业务系统，以获取业务系统针对业务需求的业务反馈信息。例如控制单元118将所确定的“账户余额查询”这一业务需求发送给业务系统130，以便获取业务系统130所反馈的业务反馈信息，例如，“当前账户余额为五十万元”。在框306处，基于业务需求、业务反馈信息和与交互对象相关联的标记，确定用于交互的业务展示数据。例如，与交互对象相关联的标记指示当前交互对象为“投资基金偏好的用户”，则人机交互设备110确定用于与交互对象交互的业务展示数据例如包括：当前账户余额、交互对象以投资项目的收益情况、以及与交互对象最匹配的投资建议。在框308处，基于业务反馈信息和业务展示数据中的至少一项，确定用于转换至所输出的语音的文本信息。例如，人机交互设备110可以从业务系统130获得交互对象已有投资项目的收益、行情、市场信息。在通过三维虚拟人物与交互对象交互的过程中，可以主动告知交互对象当前投资情况、当前及近期的市场行情及趋势分析。例如，人机交互设备110将与当前投资情况、当前及近期的市场行情及趋势分析的信息确定为用于语音信息转换的文本信息。在一些实施例中，基于交互对象的反馈(例如基于交互对象的人脸表情识别的交互对象的情绪数据)来确定推荐“与交互对象最匹配的投资建议”的时机。例如，响应于确定交互对象的情绪信息为“开心”，可以基于“与交互对象最匹配的投资建议”确定为用于转换至输出的语音的文本信息。在一些实施例中，方法300还包括：在框310处，人机交互设备110将文本信息转换为语音信息(或简称为“TTS的语音信息”)。在一些实施例中，通过自然语言引擎生成基于话术的对话，这些对话可以与交互对象相关联的标记相关，例如采用与交互对象匹配的语音语调而进行语音输出。

在一些实施例中，上述与交互对象相关联的标记例如是通过以下方式来确定：人机交互设备110获取与交互对象相关联的历史业务数据和用户信息；以及基于历史业务数据、用户信息和属性信息中的至少一项，确定与交互对象相关联的标记。上述属性信息例如是基于现场采集的输入数据所确定的。例如，人机交互设备110响应于确定交互对象不是已有注册用户(例如该交互对象第一次使用人机交互设备110进行交互)，从视频图像中提取多帧图像；基于多帧图像中的至少部分，确定交互对象的身份信息和属性信息中的至少一项，属性信息至少包括性别、年龄、情绪、穿戴特征、外形特征中的至少一项。通过采用上述手段，可以基于现场所采集的交互对象的表层特征作为“用户画像信息”或者“画像标记”。

在一些实施例中，当交互对象之前已成为注册用户，人机交互设备110可以基于一段时期内积累的交互对象的历史数据和用户信息来确定“用户画像信息”。例如，与交互对象相关联的历史业务数据例如是交互对象以往的金融投资理财项目、交易信息、风险偏好等。用户信息例如是个人资料、其他之前所录入的信息。与交互对象相关联的标记例如是：投资风险偏好等级、投资项目偏好等。通过采用上述手段，能够综合交互对象的历史实际业务数据、用户信息和属性信息方面的特点来确定与交互对象交互的业务展示数据，进而能够使得向交互对象所提供的丰富资讯与其实际需求及用户特点更为匹配。

在一些实施例中，可以整合多维度信息以确定与交互对象相关联的标记。例如，利用决策树、xgboost、lightGBM等算法基于历史业务数据来确定交互对象与标记的关联性。在一些实施例中，可以利用基于FFM算法对多维数据进行分解提取特征并分类。在一些实施例中，可以利用Deep&Wide以及标签embedding方式，通过深度神经提取推荐特征并分类。

在框208处，人机交互设备110渲染语音数据和动作数据，使得所输出的语音与所显示的三维虚拟人物的动作和面部表情中的至少一项相关联。在一些实施例中，人机交互设备110基于经转换的语音信息，确定对应的口型信息；基于口型信息，驱动所显示的三维虚拟人物的面部表情。例如，人机交互设备110基于经由文本信息所转换的语音信息，确定用于驱动三维虚拟人物的面部表情的多维向量。人机交互设备110的输出可以通过多种方式进行展示。例如通过大屏、终端、手机、电视、智能音响(例如输出数据为纯语音的方式)等。

在上述方案中，通过人机交互设备110提供音视频等流式数据流的经渲染的数据，能够利于减轻用户端显示三维虚拟人物时的渲染压力，利于用户端更轻量化，进而便于在多终端交互或展示。在一些实施例中，人机交互设备110所输出的音视频等流式数据流采用网页即时通信(WebRTC)，所输出的非流式数据例如使用WebRTC datachanne或者websocket直连方式。通过采用上述手段，使得所通信的交互数据具有传输协议优势，对Html5兼容性好，利于通过未来结合5G网络，适配利用低配置的多终端(例如交互对象的智能手机、智能音箱或远程视频柜员机(VTM)所自带的设备)进行交互对象与三维虚拟人物之间的交互。

以下结合图4来进一步描述口型信息的确定方法400。图4示出了根据本公开的实施例的用于确定口型信息的方法400的流程图。在图4中，各个动作例如由人机交互设备110执行。方法400还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

如图4所示，在框402处，对经转换的TTS语音合成的语音信息进行归一化处理。在框404处，对归一化处理结果进行窗函数处理，例如进行升余弦窗(即汉宁窗，Hanning)处理、矩形窗处理、海明窗(Hamming)处理等。通过采用窗函数(例如汉宁窗)对TTS语音信息进行截断处理，能够减少频谱能量泄漏。在框406处，基于短时窗进行线性特征提取。例如，基于线性预测分析LPC、或梅尔(Mel)频率倒谱系数(MFCC)，进行上述线性特征提取。在框408处，基于语音信息，经由机器学习模型，生成口型信息，口型信息为用于确定三维虚拟人物的面部表情多维向量，机器学习模型包括卷积神经网络模型、长短时记忆网络中的一项。在框410处，对口型信息进行线性平滑处理。

在上述方法200所示方案中，通过基于通过验证的交互对象的视频图像和语音输入来生成三维虚拟人物的动作和语音数据，并且语音与动作数据经由渲染而相互协同，能够使得所显示的三维虚拟人物的动作或语音与交互对象的多维输入(语音和视频输入)相关联，进而能够针对差异性的输入进行差异性的响应，有利于提高用户体验。

在一些实施例中，方法200还包括：基于语音输入的语义特征、声音特征和交互对象的情绪特征，确定情绪数据，使得交互数据与情绪数据相关联，情绪特征经由对视频图像中的面部表情识别而确定。

以下结合图5来描述情绪数据的确定方法500。图5示出了根据本公开的实施例的用于确定情绪数据的方法500的流程图。在图5中，各个动作例如由人机交互设备110执行。方法500还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

如图5所示，在框502处，人机交互设备110基于所获取的语音输入，确定交互对象的语义特征向量。

在框504处，经由人脸表情识别，确定交互对象的情绪特征向量。在一些实施例中，人机交互设备110基于视频图像中的多帧图像，确定交互对象的人脸所在位置；确定多个人脸面部特征点定位；基于多个面部特征点的变化，分析交互对象面部单元(FACS)，以判断交互对象1/25秒中的表情和微表情，进而确定确交互对象的情绪特征向量。在一些实施例中，人机交互设备110进一步结合文本、动作等多模态输入数据，使用EmotionNet进行用户的情绪推断，给出用户情感的分类，确定交互对象的情绪特征向量。

在框506处，基于语音输入，确定声音特征向量。

在框508处，对自然语言特征向量、情绪特征向量和声音特征向量中的至少两项进行融合。例如，将自然语言特征向量(例如20*1维向量)、情绪特征向量(例如20*1维向量)和声音特征向量(例如20*1维向量)拼接成一全局特征向量(例如20*3维向量)。在框410处，基于经融合的结果，经由双向长短时记忆网络(Bi-LSTM)，确定情绪数据，双向长短时记忆网络经由多样本训练。通过采用上述手段，人机交互设备110能够实时通过交互对象的语义、人脸表情和声音来感知用户情绪变化，并生成情绪数据来影响与三维虚拟人物相关联的交互数据，进而让交互沟通更加自然，适应交互对象的情绪变化。

在一些实施例中，方法200还包括：基于所确定的与交互对象相关联的属性信息，在多个三维虚拟人物中确定用于显示的三维虚拟人物；以及确定与显示的三维虚拟人物相关联的背景图像、环境光、声音模型、对话策略中的至少一项。在一些实施例中，人机交互设备110可以基于不同交互对象的偏好或者属性信息，从不同的三维虚拟人物中选取匹配的三维虚拟人物以进行交互。在一些实施例中，不同的三维虚拟人物可以配置具有不同的语言特点、场景或背景图像、形象和语音语调。例如，在语言特点方面，每个三维虚拟人物所采用的语言模型及话术是定制的，例如，可以有对应的口头禅，叙述方式，从而表现出不同的性格倾向。在形象部分，每一个三维虚拟人物都有独立的三维虚拟人物模型，其背后有独立的基于骨骼、肌肉和/或Blendshape功能模块的驱动方式。在一些实施例中，确定用于显示的三维虚拟人物包括在相邻两个网格间做插值运算，从一上形状融合到另一个形状。在三维虚拟人物的表情和口型方面，人机交互设备110可以基于三维虚拟人物原型提取的面部数据进行训练，使三维虚拟人物的表情更自然，口型也更贴近真实人物原型的表现。其中，基于声音驱动口型的方法例如参见图4，基于多模态的情绪数据确定方法例如参见图5。在场景及背景部分，每个三维虚拟人物的所在的场景及背景都是单独设计的，以适合不同三维虚拟人物形象的风格和客户偏好，同时在不同场景下其背景也会呈现出不同的形式。三维虚拟人物的场景和背景例如主要由三维场景下的平面贴图、背景场景以及环境光等因素组合而成。在一些实施例中，在语音语调部分，可以基于WaveNet算法有针对性的根据人物的原型的声音定制，生成近似的音频。通过采用上述手段，所输出的音频品质较通用的经转换的语音更具有特点，可以展现出三维虚拟人物的一些语音特质。在三维虚拟人物语音输出时也可以结合原型录音混合使用。

在一些实施例中，例如，基于与交互对象相关联的属性信息中的交互对象的性别、年龄和情绪，选择匹配的三维虚拟人物。例如，如果所确定的属性信息指示交互对象为长者，所确定的用于显示的三维虚拟人物例如具有如下特点：语气与语调较为舒缓、语速低于预定值、语音输出的音量高于预定阈值、外形特点为较为沉稳。如果所确定的属性信息指示交互对象例如较为年轻与活跃，所确定的用于显示的三维虚拟人物例如具有如下特点：语速高于预定值、外形特点较为活泼，响应时间较快、在输出语言中插入一些俏皮话等。在一些实施例中，例如基于属性信息中的穿戴特征，确定三维虚拟人物的匹配的背景图像。在一些实施例中，交互对象可通过输入来自行选择三维虚拟人物及其服务场景。通过采用上述手段，使得三维虚拟人物能够差异性地匹配交互对象的差异。进而使得交互方式能够实现“千人千面”，匹配交互对象差异性喜好。

在一些实施例中，方法200还包括：基于输入和情绪数据中的至少一项，确定交互对象的当前交互需求；以及基于与当前交互需求相关联的业务规则、与交互对象相关联的历史业务数据、交互过程中的上下文数据和用户信息中的至少一项，确定交互数据。例如，交互对象开始互动时，人机交互设备110获取交互对象的标识符(例如ID)，然后基于该标识符检索与该交互对象相关联的用户信息、历史业务数据等。人机交互设备110的输入采集装置114经由摄像头、麦克风、红外传感器等设备获取交互对象的多个输入。人机交互设备110可以通过交互对象的语音输入、文本输入、面部表情、和视频图像中的动作等来识别交互对象的当前交互需求(例如业务需求、或者其他无关业务的意图)。人机交互设备110可以基于与当前交互需求相关联的业务规则、与交互对象相关联的历史业务数据、交互过程中的上下文数据和用户信息中的至少一项，来确定三维虚拟人物输出的表情、语音文本和动作。上述交互过程中的上下文例如而不限于是前后几轮会话中的数据。

以下结合图6来描述交互对象与三维虚拟人物的交互方法600。图6示出了根据本公开的实施例的交互对象152与三维虚拟人物的交互方法600的流程图。在图6中，各个动作例如由人机交互设备110执行。方法600还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

如图6所示，在框602处，基于交互对象152的多个输入，生成指示交互对象信息的特征，以用于确定交互对象的当前交互需求。该指示交互对象信息的特征例如是低维向量。人机交互设备110例如整合交互对象的上述多模态的输入(例如经由广度学习，将多模态信息编码到一个新的空间)，生成指示交互对象信息的特征。该交互对象的低维向量例如包括：交互对象的表情、文本、声音(包括：语音、语调等信息)、历史轨迹(例如，购买理财、浏览相关网点行为等)。其中，对于每一种输入数据，可以采用单独的模型对其进行单独编码，然后经由多种编码进行整合，生成交互对象信息的低维表示。人机交互设备110可以采用多种方法进行上述整合，例如：求和、平均、拼接等。

在一些实施例中，如果人机交互设备110确定环境噪声大于预定值，则确定交互数据中的用于转换至输出的语音的文本信息例如包括：引导交互对象到安静的地方再进行沟通，或者更换表达方式、或者提供更多的信息。在一些实施例中，如果人机交互设备110确定环境噪声大于预定值，基于复杂降噪算法对输入数据进行处理，以便准确确定交互对象的当前交互需求。。

关于确定交互对象的当前交互需求，可以通过多种方式确定，在一些实施例中，例如基于集成学习(ensemble learning)的分类模型(例如，交互需求识别模型)，对输入分类模型的指示交互对象信息的特征进行分类，在利用多个次级分类器(weak classifier)进行投票(vote)，进而确定交互对象的当前交互需求。对于置信度较低的意图分类结果，可以构建深度学习模型进一步分类。上述交互需求识别模型是一个多模态信息的分类模型，例如是采用规则、siamese network及基于transformer的文本分类模型。

在框604处，基于所确定的交互对象的业务需求，确定对应会话树。一般而言，会话树的主体是基于业务逻辑或流程而决定的，因此，人机交互设备110基于交互对象的业务需求确定基础的对应会话树。例如，人机交互设备110基于指示交互对象信息的特征(例如低维向量)，来确定用户的交互需求。一般而言，交互对象与三维虚拟任务进行交互的意图一般有多个，例如，进入银行的交互对象与三维虚拟人物交互的主要目的是解决自己遇到的问题。例如，修改绑定手机号、查余额、转账等等。由于存在多个交互的意图，人机交互设备110配置有需求缓存buffer，保存所确定的多个交互需求。多个交互需求例如包括业务需求和无关业务的其他需求。

在框606处，响应于确定当前交互需求与对应会话树不相关联，确定与当前交互需求相关联的拼接会话树。例如，基于每一个交互需求人机交互设备110都会确定与其关联的会话树。人机交互设备110处理完一个交互需求时，从需求缓存buffer中清除相应的交互需求。如果当用户提出某个问题超出当前业务流程范围时，即人机交互设备110确定当前交互需求与对应会话树不相关时，人机交互设备110在确认交互对象的疑问后，例如接入FAQ等浅层会话树，解决用户的这些疑问。其中对应于各个功能的会话树预先已配置成会话组件，人机交互设备110能够根据交互对象的交互需求，动态组合和/拼接会话组件、增补哪些会话树组件。

在框608处，基于对应会话树和拼接会话组件，确定交互数据。例如基于对应会话树和拼接会话组件进行拼接或者跳转。拼接例如是指：将对应一定功能的会话树组件(即“子会话树”，其例如是组成某个会话树的多个子会话树的一个子会话树)拼接在已有的对应会话树(例如是基于业务需求确定的主会话树)中，供人机交互设备110完成与交互对象的交互，以完成业务流程。如图7中所基于的会话树所示，虚线框746内所基于的子会话树就是会话树组件。跳转例如是指：交互对象与三维虚拟人物会话过程中，交互对象可能会提出一些新的问题，交互需求识别模型通过打分，发现当前会话树无法回答这些新的问题时，人机交互设备110基于交互对象的问题，再次使用交互需求识别模型进行交互需求分类，寻找到合适的会话树，跳转到新的会话树，完成流程后再调回原会话树。上述跳转的过程如图7中虚线框748所示。

以下结合图7来描述交互对象与三维虚拟人物152的交互过程。图7示出了根据本公开的实施例的交互对象与三维虚拟人物的交互过程700的示意图。如图7所示，整个业务会话过程中基于多个会话树，例如包括从会话树1至会话树N(N为自然数)。其中，每个会话树例如代表了某一项业务流程，这些业务流程例如是基于具体应用场景(如银行)的业务交互过程数据而归纳、生成的。当交互对象进入到三维虚拟任务会话场景后，交互对象的多模态信息经过编码，输入到前文提及的交互需求识别模型，来确定交互对象的当前交互需求(或意图)，进而确定基于哪一个会话树确定交互数据。

例如交互对象712说了第一句话，基于该交互对象712的第一句话，人机交互设备110例如基于人脸表情识别而确定该交互对象的表情数据714例如为“困惑”；以及基于语音输入所确定的语音的语义内容716例如是“询问某个基金项目”。人机交互设备110基于在第一句话期间例如所获取的交互对象的文本输入718例如是“账号信息”；以及基于所获取的视频图像720进行人脸识别后确定为该交互对象为已注册用户(例如为银行已有客户)。人机交互设备110例如经由该交互对象的用户信息等确认用户画像标记722例如为“基金项目偏好”以及“抗风险等级较高”；以及基于交互对象的历史业务数据(或历史轨迹)724例如确定该交互对象已经在银行投资了一些基金项目。

人机交互设备110基于交互对象在讲第一句话期间的上述712至724所对应的多维信息，确定三维虚拟人物输出的表情、语音文本和动作。例如，如果确认交互对象712在说第一句话时候的表情数据714指示为“困惑”，则人机交互设备110所确定的交互数据中的三维虚拟人物的输出的语音的对应文本信息736例如包括：询问用户困惑的点在什么地方，帮助用户解答“某个基金项目”所涉及的专有名词含义，解释“某个基金项目”的购买流程等，三维虚拟人物的肢体动作数据738例如包括：向交互对象展示该基金项目的历史收益图表等。如果人机交互设备110确认交互对象712在说第一句话时候的表情数据714例如指示为“生气”，则人机交互设备110所确定的交互数据中的三维虚拟人物的输出的语音的对应文本信息740例如包括：一定的话术、语音、语调来调节氛围，舒缓用户情绪。

例如，交互对象听完三维虚拟人物的反馈后例如说了第二句话，基于该交互对象的第二句话，人机交互设备110例如基于人脸表情识别确定交互对象的表情数据742例如为“开心”；基于语音输入所确定的语音的语义内容744例如是“询问其账户余额”。人机交互设备110基于交互对象在讲第二句话期间的上述指示为“开心”的情绪数据742、语义内容744等所示的多维信息，确定三维虚拟人物输出的表情、语音文本和动作。例如，通过三维虚拟人物适度地增加与交互对象的交流，根据交互对象对基金投资项目的兴趣为其推荐其可能感兴趣的基金投资产品。如图7所示，围绕交互内容所涉及的业务流程，交互对象与三维虚拟人物如此往复进行交互。

在上述交互过程中，每一种情绪数据例如可以经由多模态情感分析模块的CCEI模型给出评分。例如，每种情绪数据都有一定的阈值，超过特定的阈值，三维虚拟人物就采用相应的话术、语音、语调进行交互。会话树可动态插入或者删除、动态配置。在某些场景下，如多意图场景，会话树可以动态延伸。例如，对话期间，如果人机交互设备110确认交互对象712的情绪数据指示该交互对象为“紧张”，人机交互设备110所确定的交互数据中例如插入：判断用户是否在刻意隐瞒真实情况，确认是否在骗取贷款等等。例如，人机交互设备110基于所确定的当前交互需求来确定增补哪些拼接会话树组件，图7中虚线框内所示的会话树组件为拼接的会话树组件。

通过采用上述手段，不仅仅基于业务流程，而且基于实时获取用户当前的状态信息形成会话树，以确定三维虚拟人物的交互语音、动作和表情，进而能够使得三维虚拟人物深度参与整个会话，与交互对象形成互动。

图8示意性示出了适于用来实现本公开实施例的电子设备800的框图。设备800可以用于实现图1的人机交互设备110。如图所示，设备800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的计算机程序指令或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序指令，来执行各种适当的动作和处理。在RAM803中，还可存储设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元801执行上文所描述的各个方法和处理，例如执行方法200至600。例如，在一些实施例中，方法200至600可被实现为计算机软件程序，其被存储于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由CPU 801执行时，可以执行上文描述的方法200至600的一个或多个操作。备选地，在其他实施例中，CPU801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200至600的一个或多个动作。

本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

以上仅为本公开的可选实施例，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等效替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种用于人机交互的方法，包括：

获取交互对象的输入，所述输入至少包括视频图像和语音输入；

基于所述输入，确定所述交互对象是否通过验证；以及

响应于确认所述交互对象通过验证，基于所述视频图像和所述语音输入，生成用于与所述交互对象进行交互的交互数据，所述交互数据至少包括语音数据和动作数据；以及

渲染所述语音数据和动作数据，使得所输出的语音与所显示的三维虚拟人物的肢体动作和面部表情中的至少一项相关联。

2.根据权利要求1所述的方法，还包括：

基于所述语音输入的语义特征、声音特征和所述交互对象的情绪特征，确定情绪数据，使得所述交互数据与所述情绪数据相关联，所述情绪特征经由对所述视频图像中的面部表情识别而确定。

3.根据权利要求1所述的方法，其中所述交互数据还包括用于显示的文字、图标、图表、表单、背景、特效、交互式控件、时间、短信、二维码中的至少一项，所述输入还包括所述交互对象的触控输入、文本输入中的至少一项。

4.根据权利要求2所述的方法，还包括：

基于所述输入和所述情绪数据中的至少一项，确定所述交互对象的当前交互需求；以及

基于与所述当前交互需求相关联的业务规则、与所述交互对象相关联的历史业务数据、交互过程中的上下文数据和用户信息中的至少一项，确定所述交互数据。

5.根据权利要求4所述的方法，还包括：

基于所述交互对象的多个输入，生成指示所述交互对象信息的特征，以用于确定所述交互对象的当前交互需求；

基于所述交互对象的业务需求，确定对应会话树；

响应于确定所述当前交互需求与所述对应会话树不相关联，确定与当前交互需求相关联的拼接会话组件；以及

基于所述对应会话树和所述拼接会话组件，确定所述交互数据。

6.根据权利要求1所述的方法，还包括：

从所述视频图像中提取多帧图像；以及

基于所述多帧图像中的至少部分，确定所述交互对象的属性信息，所述属性信息包括性别、年龄、情绪、穿戴特征、外形特征中的至少一项。

7.根据权利要求6所述的方法，还包括：

获取与所述交互对象相关联的历史业务数据和用户信息；以及

基于所述历史业务数据、用户信息和所述属性信息中的至少一项，确定与所述交互对象相关联的标记。

8.根据权利要求6所述的方法，还包括：

基于所确定的与所述交互对象相关联的属性信息，在多个三维虚拟人物中确定用于显示的三维虚拟人物；以及

确定与所述显示的三维虚拟人物相关联的背景图像、环境光、声音模型、对话策略中的至少一项。

9.根据权利要求3所述的方法，其中生成用于与交互对象交互的交互数据包括：

基于所述输入，确认所述交互对象的业务需求；

将所述业务需求发送给业务系统，以获取所述业务系统针对所述业务需求的业务反馈信息；

基于所述业务需求、业务反馈信息和与所述交互对象相关联的标记，确定用于交互的业务展示数据；以及

基于所述业务反馈信息和所述业务展示数据中的至少一项，确定用于转换至所输出的语音的文本信息。

10.根据权利要求9所述的方法，其中生成用于与交互对象交互的交互数据还包括：

将所述文本信息转换为语音信息；

基于所述语音信息，经由机器学习模型，生成所述口型信息，所述口型信息为用于确定所述三维虚拟人物的面部表情多维向量，所述机器学习模型包括卷积神经网络模型、长短时记忆网络中的一个；以及

基于所述口型信息，驱动所显示的所述三维虚拟人物的面部表情。

11.根据权利要求10所述的方法，其中确定对应的口型信息包括：

对所述语音信息进行归一化处理；以及

对经归一化处理的结果进行窗函数处理；以及

基于短时窗进行线性特征提取。

12.根据权利要求2所述的方法，还包括：

确定所述交互对象的语义特征向量；

确定所述交互对象的情绪特征向量；

基于所述语音输入，确定所述声音特征向量；

对所述语义特征向量、所述情绪特征向量和声音特征向量中的至少两项进行融合；以及

基于经融合的结果，经由双向长短时记忆网络(Bi-LSTM)，确定所述情绪数据，所述双向长短时记忆网络经由多样本训练。

13.一种用于人机交互的装置，所述装置包括：

存储器，被配置为存储一个或多个程序；

处理单元，耦合至所述存储器并且被配置为执行所述一个或多个程序使所述装置执行根据权利要求1-12中任一所述的方法的步骤。

14.一种非瞬态计算机可读存储介质，其上存储有机器可执行指令，所述机器可执行指令在被执行时使机器执行根据权利要求1-12中任一项所述的方法的步骤。