CN110826441B

CN110826441B - 交互方法、装置、终端设备及存储介质

Info

Publication number: CN110826441B
Application number: CN201911029945.5A
Authority: CN
Inventors: 金益欣
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2022-10-28
Anticipated expiration: 2039-10-25
Also published as: CN110826441A

Abstract

本申请实施例提供了一种交互方法、装置、终端设备及存储介质。该方法包括：当终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息；对该手语信息进行识别，获取与该手语信息对应的答复手语信息；基于答复手语信息生成虚拟智能客服的动作参数；基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列，答复图像序列由驱动虚拟智能客服产生的多帧连续的行为图像构成；基于答复图像序列，生成并输出针对待处理视频的答复视频。本申请通过对待处理视频中的手语信息进行识别，获取与该手语信息对应的答复手语信息，基于答复手语信息生成虚拟智能客服的动作参数，从而使得聋哑人可以通过手语与虚拟智能客服进行交互。

Description

交互方法、装置、终端设备及存储介质

技术领域

本申请涉及人机交互技术领域，更具体地，涉及一种交互方法、装置、终端设备及存储介质。

背景技术

客服是企业获得用户反馈意见、解决用户产品疑问的一个主要途径。传统的客服业务主要由人工客服人员来处理，使得企业在客服方面的投入会随着客服业务量的增加而高速线性增长，成为不可忽视的支出。针对这一问题，目前比较先进的方案是引入客服机器人，以此降低人工客服量以及企业所需投入的成本。据了解，我国听力、语言残障人士超过2000万人，然而，目前客服机器人主要面向的用户为正常人，面向特殊群体提供服务的客服机器人较少，使得特殊群体的用户很难与客服机器人进行交互，降低了特殊群体的用户与客服机器人进行交互的便利性。

发明内容

本申请实施例提出了一种交互方法、装置、终端设备及存储介质，以解决上述问题。

第一方面，本申请实施例提供了一种交互方法，应用于终端设备，该方法包括：当所述终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息；对所述手语信息进行识别，获取与所述手语信息对应的答复手语信息；基于所述答复手语信息生成虚拟智能客服的动作参数；基于所述动作参数，对所述虚拟智能客服的动作进行驱动，生成答复图像序列，所述答复图像序列由驱动所述虚拟智能客服产生的多帧连续的行为图像构成；基于所述答复图像序列，生成并输出针对所述待处理视频的答复视频。

可选地，所述当所述终端设备的当前模式为手语识别模式，获取待处理视频中的手语信息之前，所述方法还包括：获取待处理视频；若所述终端设备的当前模式为非手语识别模式时，基于第一神经网络模型判断所述待处理视频是否包含手语信息；当所述待处理视频包含手语信息时，将所述终端设备的当前模式切换为手语识别模式。

可选地，所述待处理视频包括语音信息，所述基于第一神经网络模型判断所述待处理视频是否包含手语信息，包括：对所述语音信息进行识别；当所述语音信息对应的识别内容为无意义内容时，基于所述第一神经网络模型判断所述待处理视频是否包含手语信息。

可选地，所述对所述手语信息进行识别，获取与所述手语信息对应的答复信息，包括：将所述手语信息输入第二神经网络模型，获得与所述手语信息对应的文本信息，其中，所述第二神经网络模型是通过将样本手语信息作为输入，将样本手语信息对应的文本信息作为输出，基于机器学习算法训练得到的；基于所述文本信息查找对应的答复文本信息；将所述答复文本信息输入第三神经网络模型，获得与所述答复文本信息对应的答复手语信息，其中，所述第三神经网络模型是通过将样本答复文本信息作为输入，将样本答复文本信息对应的答复手语信息作为输出，基于机器学习算法训练得到的。

可选地，所述获取待处理视频中的手语信息，包括：当检测到所述待处理视频中的手部动作由静止切换为变化时，获取手部动作变化时对应的时间作为第一时间；当检测到所述待处理视频中的手部动作由变化切换为静止状态时，获取手部动作处于静止状态时对应的时间作为第二时间；当检测到所述待处理视频中的手部动作再次由静止切换为变化时，获取手部动作再次变化时对应的时间作为第三时间；计算所述第二时间与所述第三时间之间的时间间隔；判断所述时间间隔是否满足预设时长；当所述时间间隔满足所述预设时长时，获取所述第一时间与所述第二时间之间的待处理视频中的所有手语信息。

可选地，所述判断所述时间间隔是否满足预设时长之前，还包括：获取待处理视频中的手语信息在预设时间段内的数量；基于所述预设时间段和所述数量计算得到所述待处理视频中的手语信息的变化速度；基于所述手语信息的变化速度确定与所述变化速度对应的预设时长。

可选地，所述待处理视频包括人脸图像，所述基于所述答复手语信息生成虚拟智能客服的动作参数之后，还包括：对所述人脸图像进行分析，获取所述虚拟智能客服的面部形象参数；基于所述面部形象参数获得模拟人脸图像，并将所述虚拟智能客服的人脸图像替换为所述模拟人脸图像。

第二方面，本申请实施例提供了一种交互装置，应用于终端设备，该装置包括：信息获取模块，用于当所述终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息；信息识别模块，用于对所述手语信息进行识别，获取与所述手语信息对应的答复手语信息；参数生成模块，用于基于所述答复手语信息生成虚拟智能客服的动作参数；序列生成模块，用于基于所述动作参数，对所述虚拟智能客服的动作进行驱动，生成答复图像序列，所述答复图像序列由驱动所述虚拟智能客服产生的多帧连续的行为图像构成；视频生成模块，用于基于所述答复图像序列，生成并输出针对所述待处理视频的答复视频。

可选地，所述信息获取模块包括：第一时间获取子模块，用于当检测到所述待处理视频中的手部动作由静止切换为变化时，获取手部动作变化时对应的时间作为第一时间；第二时间获取子模块，用于当检测到所述待处理视频中的手部动作由变化切换为静止状态时，获取手部动作处于静止状态时对应的时间作为第二时间；第三时间获取子模块，用于当检测到所述待处理视频中的手部动作再次由静止切换为变化时，获取手部动作再次变化时对应的时间作为第三时间；时间间隔计算子模块，用于计算所述第二时间与所述第三时间之间的时间间隔；时间间隔判断子模块，用于判断所述时间间隔是否满足预设时长；手语信息获取子模块，用于当所述时间间隔满足所述预设时长时，获取所述第一时间与所述第二时间之间的待处理视频中的所有手语信息。

可选地，所述信息获取模块还包括：数量获取子模块，用于获取待处理视频中的手语信息在预设时间段内的数量；变化速度计算子模块，用于基于所述预设时间段和所述数量计算得到所述待处理视频中的手语信息的变化速度；预设时长确定子模块，用于基于所述手语信息的变化速度确定与所述变化速度对应的预设时长。

可选地，所述信息识别模块包括：文本信息获得子模块，用于将所述手语信息输入第二神经网络模型，获得与所述手语信息对应的文本信息，其中，所述第二神经网络模型是通过将样本手语信息作为输入，将样本手语信息对应的文本信息作为输出，基于机器学习算法训练得到的；文本信息查找子模块，用于基于所述文本信息查找对应的答复文本信息；答复手语信息获得子模块，用于将所述答复文本信息输入第三神经网络模型，获得与所述答复文本信息对应的答复手语信息，其中，所述第三神经网络模型是通过将样本答复文本信息作为输入，将样本答复文本信息对应的答复手语信息作为输出，基于机器学习算法训练得到的。

可选地，所述交互装置还包括：视频获取模块，用于获取待处理视频；信息判断模块，用于若所述终端设备的当前模式为非手语识别模式时，基于第一神经网络模型判断所述待处理视频是否包含手语信息；模式切换模块，用于当所述待处理视频包含手语信息时，将所述终端设备的当前模式切换为手语识别模式。

可选地，所述待处理视频包括语音信息，所述信息判断模块包括：语音信息识别子模块，用于对所述语音信息进行识别；信息判断子模块，用于当所述语音信息对应的识别内容为无意义内容时，基于所述第一神经网络模型判断所述待处理视频是否包含手语信息。

可选地，所述交互装置还包括：参数获取模块，用于对所述人脸图像进行分析，获取所述虚拟智能客服的面部形象参数；图像替换模块，用于基于所述面部形象参数获得模拟人脸图像，并将所述虚拟智能客服的人脸图像替换为所述模拟人脸图像。

第三方面，本申请实施例提供了一种终端设备，包括存储器和处理器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时所述处理器执行上述方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，该计算机可读取存储介质中存储有程序代码，该程序代码可被处理器调用执行如上述第一方面所述的方法。

本申请实施例提供了一种交互方法、装置、终端设备及存储介质。当终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息；对该手语信息进行识别，获取与该手语信息对应的答复手语信息；基于答复手语信息生成虚拟智能客服的动作参数；基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列，答复图像序列由驱动虚拟智能客服产生的多帧连续的行为图像构成；基于答复图像序列，生成并输出针对待处理视频的答复视频。从而通过对待处理视频中的手语信息进行识别，获取与该手语信息对应的答复手语信息，基于答复手语信息生成虚拟智能客服的动作参数，使得聋哑人可以通过手语与虚拟智能客服进行交互。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了一种适用于本申请实施例的应用环境示意图；

图2示出了本申请实施例提供的一交互方法的流程示意图；

图3示出了本申请实施例提供的虚拟智能客服的显示示例图；

图4示出了本申请实施例提供的另一交互方法的流程示意图；

图5示出了本申请实施例提供的又一交互方法的流程示意图；

图6示出了本申请实施例提供的再一交互方法的流程示意图；

图7示出了本申请实施例提供的又再一交互方法的流程示意图；

图8示出了本申请实施例提供的交互装置的结构框图；

图9示出了本申请实施例的用于执行根据本申请实施例的交互方法的终端设备的结构框图。

图10示出了本申请实施例的用于保存或者携带实现根据本申请实施例的交互方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着互联网、社会化媒体的发展，除了传统上对客服需求旺盛的行业(例如运营商客服、银行客服、政府部门政策解答的在线机器人等等)，一些新的行业如：手机、汽车、快递行业等也都开始尝试引入虚拟客服助理(即虚拟智能客服)。目前，虚拟智能客服与用户进行对话时，可以将对用户咨询的回复内容经过虚拟的人物形象之口，通过语音的方式表达出来，让用户可以在人机交互界面上直观的看到具有虚拟人物形象的虚拟客服助理在“说话”，使用户与虚拟客服助理之间能够进行“面对面”的沟通交流。然而，目前客服机器人主要面向的用户为正常人，面向特殊群体提供服务的客服机器人较少，使得特殊群体的用户很难与客服机器人进行交互，降低了特殊群体的用户与客服机器人进行交互的便利性。

为了解决上述问题，发明人提出了本申请实施例中的交互方法、装置、终端设备及存储介质，通过对待处理视频中的手语信息进行识别，获取与该手语信息对应的答复手语信息，基于答复手语信息生成虚拟智能客服的动作参数，从而使得聋哑人可以通过手语与虚拟智能客服进行交互。

为便于更好的理解本申请实施例提供的交互方法、装置、终端设备及存储介质，下面先对适用于本申请实施例的应用环境进行描述。

请参阅图1，图1示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的交互方法可以应用于如图1所示的多态交互系统100。多态交互系统100包括终端设备110以及服务器120，服务器120与终端设备110通信连接。其中，服务器120可以是传统服务器，也可以是云端服务器，在此不作具体限定。

其中，终端设备110可以是具有显示屏且支持数据输入的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。具体的，数据输入可以是基于终端设备110上具有的语音模块输入语音、字符输入模块输入字符等。

其中，终端设备110上可以安装有客户端应用程序，用户可以基于客户端应用程序(例如应用程序(application，APP)、微信小程序等)与服务器120进行通信。具体的，服务器120上安装有对应的服务端应用程序，用户可以基于客户端应用程序在服务器120注册一个用户账号，并基于该用户账号与服务器120进行通信，例如用户在客户端应用程序登录用户账号，并基于该用户账号通过客户端应用程序进行输入，可以输入文字信息或语音信息等，客户端应用程序接收到用户输入的信息后，可以将该信息发送至服务器120，使得服务器120可以接收该信息并进行处理及存储，服务器120还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备110。

在一些实施方式中，客户端应用程序可以用于向用户提供客户服务，与用户进行客服沟通，客户端应用程序可以基于虚拟机器人与用户进行交互。具体的，客户端应用程序可以接收用户输入的信息，并基于虚拟机器人对该信息做出应答。其中，虚拟机器人是基于可视化图形的软件程序，该软件程序被执行后可以向用户呈现出模拟生物行为或思想的机器人形态。虚拟机器人可以是模拟真人式的机器人，例如根据用户自身或其他人的形态建立的形似真人的机器人，也可以是动漫效果式的机器人，例如动物形态或卡通人物形态的机器人，在此不作限定。

在一些实施方式中，终端设备110在获取与用户输入的信息对应的回复信息后，可以在终端设备110的显示屏或与其连接的其他图像输出设备上显示对应与该回复信息的虚拟机器人图像(其中，该虚拟机器人图像特征可以包括虚拟机器人的性别、与答复音频所对应的答复情感以及形象特征等)。作为一种方式，在播放虚拟机器人图像的同时，可以通过终端设备110的扬声器或与其连接的其他音频输出设备播放与虚拟机器人图像对应的音频，还可以在终端设备110的显示屏上显示与该回复信息对应的文字或图形，实现在图像、语音、文字等多个方面上与用户的多态交互。

在一些实施方式中，对用户输入的信息进行处理的装置也可以设置于终端设备110上，使得终端设备110无需依赖与服务器120建立通信即可实现与用户的交互，此时多态交互系统100可以只包括终端设备110。

上述的应用环境仅为方便理解所作的示例，可以理解的是，本申请实施例不仅局限于上述应用环境。

下面将通过具体实施例对本申请实施例提供的交互方法、装置、终端设备及存储介质进行详细说明。

请参阅图2，图2示出了本申请实施例提供的一交互方法的流程示意图。本实施例提供的交互方法可以应用于具有显示屏或其他图像输出装置的终端设备，终端设备可以是智能手机、平板电脑、穿戴式智能终端等电子设备。

在具体的实施例中，交互方法可应用于如图8所示的交互装置200以及图9所示的终端设备110。下面将针对图2所示的流程进行详细的阐述。上述的交互方法具体地可以包括以下步骤：

步骤S110：当终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息。

在本申请实施例中，终端设备可以包括多种模式，其中，不同的模式对应移动终端不同的操作，例如，当终端设备的当前模式是语音识别模式时，移动终端可以采集语音信息并对语音信息进行识别，使得用户可以通过语音进行人机交互；当终端设备的当前模式是文本识别模式，移动终端可以获取用户输入的文本信息，与用户进行交互；当终端设备的当前模式为手语识别模式，可以获取待处理视频中的手语信息进行识别操作。

在一些实施方式中，终端设备可以通过接收用户的操作，选择不同的模式。其中，终端设备可以基于用户在界面上的触控操作选择对应的模式，例如，用户在界面上点击语音识别的图标时，可以将终端设备的模式选择为语音识别模式。终端设备也可以通过采集包含用户的视频，并对视频进行识别，确定该视频对应的模式，例如，当识别出视频中包含手语信息，可以将终端设备的模式选择为手语识别模式。

作为一种实施方式，当终端设备的当前模式为手语识别模式时，为了避免采集到语音信息造成误触发操作，可以关闭麦克风等音频采集设备，仅开启摄像头等图像采集设备采集用户的手语信息，进而还可以降低终端设备的功耗。

在一些实施方式中，待处理视频为至少包含有用户手部的视频流，可以是仅包含用户上半身的视频流，也可以是包含用户全身的视频流。终端设备可以通过多种方式获取到待处理视频。在一些实施例中，待处理视频可以是在用户与虚拟智能客服进行交互时，终端设备利用摄像头等图像采集设备实时采集到的用户的视频。具体地，作为一种方式，可以是当终端设备的系统前台运行有虚拟智能客服对应的应用程序时，调用终端设备的各个硬件模块来采集用户的视频。

在一些实施方式中，终端设备获取到待处理视频后，且该终端设备的当前模式为手语识别模式时，可以获取待处理视频中的手语信息。作为一种实施方式，可以对待处理视频进行分解，以提取出手语信息。其中，手语信息可以是从分解的多张视频图像中挑选出的包含手部动作的视频图像。

其中，待处理视频中的手语信息可以用于表征用户向虚拟智能客服提出的交互意向，可以是明确的询问，例如通过手语表达“我购买的商品发货了吗？”，也可以是某种请求，例如通过手语表达“请帮我查询我购买的这件商品的物流信息”，还可以是表达某种交互意愿的问候语，例如通过手语表达“你好，我有问题需要咨询”，等等。

在一些实施方式中，终端设备与服务器通信连接，终端设备接收用户输入的手语信息后，可以将该手语信息发送至服务器。其中服务器可以是安装有客服系统或问答系统等的服务器，使得服务器可以基于该手语信息对用户输入的手语信息作应答，具体的，服务器可以将用于应答该手语信息的数据发送至终端设备，使得用户可以基于终端设备实现人机交互。

步骤S120：对手语信息进行识别，获取与手语信息对应的答复手语信息。

在一些实施方式中，可以将手语信息输入与手语信息对应的识别模型中，并基于识别模型对该手语信息进行识别，获取与该手语信息对应的答复手语信息。

作为一种实施方式，答复手语信息可以是基于上述手语信息在问答库中查询并获取与手语信息对应的答复手语信息，其中，问答库包括预存的手语信息和与手语信息对应的预存的答复手语信息，每个手语信息与其匹配的答复手语信息一一对应。例如问答库中预存的手语信息可以是完整的问题如“你们店铺包邮吗？”，从而基于该手语信息，可以获取与该手语信息对应的答复手语信息。

作为一种实施方式，答复手语信息也可以是基于问答模型获取的，具体地，可以将手语信息输入问答模型，通过问答模型获取与该手语信息对应的答复手语信息。其中，问答模型可以是基于大量的问答对训练得到的，例如可以将从海量人工客服的沟通记录得到的海量问答视频作为训练样本，将手语信息作为输入，手语信息对应的答复手语信息作为期望输出，基于机器学习的方法训练得到问答模型，从而通过问答模型获取与手语信息对应的答复手语信息。

在另一些实施方式中，可以对手语信息进行识别，获取与该手语信息对应的文本信息，基于该文本信息查找与该文本信息对应的答复文本信息，在获取与答复文本信息对应的答复手语信息。

步骤S130：基于答复手语信息生成虚拟智能客服的动作参数。

在一些实施方式中，可以基于答复手语信息生成虚拟智能客服的动作参数。

作为一种实施方式，可以预先获取大量的训练手语信息以及训练手语信息对应的动作参数作为训练样本集，并将训练样本集输入机器学习模型进行训练，得到动作参数对应的神经网络模型，从而可以将答复手语信息输入该神经网络模型，得到虚拟智能客服的动作参数。其中，该神经网络模型可以是循环神经网络(recurrent neural network，RNN)或者长短期记忆网络(long short-term memory，LSTM)等神经网络模型。

从而虚拟智能客服在接收到用户的询问时，可以通过手语告知用户回复内容。例如，在用户通过手语询问店铺的方位时，虚拟智能客服可以通过手语告知用户具体路线。

步骤S140：基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列，答复图像序列由驱动虚拟智能客服产生的多帧连续的行为图像构成。

在本申请实施例中，可以通过动作参数，对虚拟智能客服的动作进行驱动，即可驱动虚拟智能客服的人体模型呈现不同的动作(可以主要指虚拟智能客服的上半身肢体呈现不同的动作)。

作为一种实施方式，虚拟智能客服的人体模型，可以是通过三维建模等三维制作软件制作得到的三维人体模型，故可以基于动作参数驱动虚拟智能客服的人体模型，使得虚拟智能客服呈现不同的动作。具体地，可以根据动作参数解析出各个重点关节的旋转角度等信息，并根据这些信息驱动人体模型中相应的关节进行动作，从而使得虚拟智能客服呈现不同的动作。通过动作参数对虚拟智能客服的动作进行驱动，即可获得虚拟智能客服的行为图像，进而可以根据连续的多帧行为图像，生成答复图像序列。

步骤S150：基于答复图像序列，生成并输出针对待处理视频的答复视频。

作为一种实施方式，答复视频，可以是虚拟智能客服针对用户输入的手语信息，获取的用于向用户进行相应答复的视频。进一步地，可以基于答复图像序列，生成并输出针对待处理视频的答复视频，具体地，可以获取预设视频，预设视频可以是预先准备的用于针对待处理视频对用户进行反馈的视频，预设视频中包括有预设答复图像序列，那么可以将预设视频中的预设答复图像序列替换为上述的答复图像序列，从而生成针对上述待处理视频的答复视频，进而将该答复视频输出并向用户展示。

作为一种实施方式，答复视频可以包括答复图像序列，即基于动作参数，驱动虚拟智能客服产生的多帧连续的行为图像，例如，以图3所示的终端设备110的显示界面为例，用户可以通过手语在终端设备110发起询问，客服系统在获得用户的手语后，对手语对应的询问内容进行识别，并获取对应的答复手语信息，进而可以基于答复手语信息生成虚拟智能客服101的动作参数，驱动虚拟智能客服101，使得虚拟智能客服101用手语回复用户。

作为一种实施方式，可以获取答复手语信息对应的答复文本信息，基于答复文本信息得到视频展示信息(例如，视频中的字幕)，则可以基于答复图像序列和视频展示信息，生成并输出针对待处理视频的答复视频。进一步地，生成针对待处理信息的答复视频时，为了使得输出的答复视频中的答复图像序列与视频展示信息同步，可以对答复图像序列以及视频展示信息分别标注时间戳信息，以用于在生成答复视频时将答复图像序列和视频展示信息基于时间戳信息对齐，实现答复视频中的内容同步。

其中，需要说明的是，图3中的虚拟智能客服的形象仅作为一种示例，实际实现时虚拟智能客服的形象可以是多样化的。作为一种方式，当用户开启了视频客服功能按钮时，可以在视频客服的用户端显示虚拟智能客服。可选的，对于显示虚拟智能客服的场所可以不受限制，例如，可以是在手机的APP客户端的显示界面进行显示，也可以是在运营商的网站的页面上进行显示，也可以是在银行的客服机等终端设备的显示界面进行显示，具体不作限定。

上述实施例提供的交互方法，当终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息；对该手语信息进行识别，获取与该手语信息对应的答复手语信息；基于答复手语信息生成虚拟智能客服的动作参数；基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列，答复图像序列由驱动虚拟智能客服产生的多帧连续的行为图像构成；基于答复图像序列，生成并输出针对待处理视频的答复视频。通过对待处理视频中的手语信息进行识别，获取与该手语信息对应的答复手语信息，基于答复手语信息生成虚拟智能客服的动作参数，从而使得聋哑人可以通过手语与虚拟智能客服进行交互。

请参阅图4，图4示出了本申请实施例提供的另一交互方法的流程示意图，该方法包括：

步骤S210：获取待处理视频。

待处理视频为至少包含有用户手部的视频流，可以是仅包含用户上半身的视频流，也可以是包含用户全身的视频流。终端设备可以通过多种方式获取到待处理视频。在一些实施例中，待处理视频可以是在用户与虚拟智能客服进行交互时，终端设备利用摄像头等图像采集设备实时采集到的用户的视频。具体地，作为一种方式，可以是当终端设备的系统前台运行有虚拟智能客服对应的应用程序时，调用终端设备的各个硬件模块来采集用户的视频。

在另一些实施例中，待处理视频也可以是已录制好的视频，该录制好的视频需满足视频中的人物，与虚拟智能客服当前的交互对象保持一致。作为一种方式，当终端设备的系统前台运行有虚拟智能客服对应的应用程序时，可以通过应用程序的后台获取用户在虚拟智能客服对应的应用程序界面输入的录制好的视频。其中，录制好的视频可以是从第三方客户端程序中获取到的视频，也可以从网上下载或远程下载的录制好的视频。可以理解的是，待处理视频的来源不受限制，仅需待处理视频中包含有当前与虚拟智能客服进行交互的用户即可，在此不再一一列举。

步骤S220：若终端设备的当前模式为非手语识别模式时，基于第一神经网络模型判断待处理视频是否包含手语信息。

终端设备包括多种模式，若终端设备的当前模式为非手语识别模式时(例如语音识别模式、图像识别模式等)，可以通过对获取到的待处理视频进行识别，判断待处理视频是否包含手语信息。具体地，可以根据第一神经网络模型判断待处理视频是否包含手语信息，待处理视频可以分解为多张图像，其中，第一神经网络模型可以是将训练图像作为输入，训练图像对应的手语信息作为输出进行训练的。于是可以将待处理视频分解的多张图像分别输入第一神经网络模型，通过判断每张图像对应是否输出有手语信息，从而判断待处理视频是否包含手语信息。其中，第一神经网络模型可以是LSTM模型。

作为一种实施方式，当终端设别的当前模式为非手语识别模式，且待处理视频中不包含语音信息时，即可以理解为待处理视频为静音时，可以基于上述第一神经网络模型判断待处理视频是否包含手语信息。

作为一种实施方式，待处理视频中可以包括语音信息，在执行步骤S220之前，或执行步骤S220的同时，可以对待处理视频中的语音信息进行识别，并判断语音信息对应的识别内容是否为无意义内容。其中，可以是通过无意义词料库，当在无意义词料库中比对出相同的内容，则认定是无意义内容。也可以对语音信息进行噪声检测，例如，可以采用噪音检测工具进行检测，也可以通过检测语音信息的音量是否小于一定的阈值判断该语音信息是否为噪声，当确定该语音信息为噪音，则可以认定语音信息对应的识别内容是无意义内容。进一步地，还可以通过音频端点检测从语音信息中检测是否有有效的语音段，判断是否为无意义内容。

作为一种实施方式，若采集到的语音信息为有意义的内容，则可以对该语音信息进行识别，采用语音交互方式与用户进行交互。

作为一种实施方式，为了避免待处理视频中的某一个动作信息与手语信息类似，而引起误触发手语识别模式的情况，可以检测一段时间内，待处理视频是否包含多个手语信息，或连续的多个手语信息，以此更准确地确定当前用户是否为聋哑人，从而确定是否将终端设备的当前模式切换为手语识别模式。进一步地，还可以将该一段时间内获取到的手语信息进行存储，在将终端设备的当前模式切换为手语识别模式时，可以将上述一段时间内获取到的手语信息进行识别。

步骤S230：当待处理视频包含手语信息时，将终端设备的当前模式切换为手语识别模式。

在本申请实施例中，当待处理视频包含手语信息时，可以将终端设备的当前模式切换为手语识别模式。

在一些实施方式中，若将待处理视频分解的多张图像分别输入第一神经网络模型，当每张图像对应都输出有手语信息，可以确定待处理视频中包含手语信息，则可以见终端设备的当前模式切换为手语识别模式。作为一种实施方式，待处理视频包括语音信息，对语音信息进行识别后，当语音信息对应的识别内容为无意义内容时，且待处理视频包含手语信息，可以将终端设备的当前模式切换为手语识别模式。

作为一种实施方式，当检测到一段时间内，待处理视频包含多个手语信息，或连续的多个手语信息时，可以确定当前用户为聋哑人，则可以将终端设备的当前模式切换为手语识别模式。

进一步地，当将终端设备的当前模式切换为手语识别模式后，为了避免采集到语音信息造成误触发操作，可以关闭麦克风等音频采集设备，仅开启摄像头等图像采集设备采集用户的手语信息，进而还可以降低终端设备的功耗。

步骤S240：获取待处理视频中的手语信息。

步骤S250：对手语信息进行识别，获取与手语信息对应的答复手语信息。

步骤S260：基于答复手语信息生成虚拟智能客服的动作参数。

步骤S270：基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列，答复图像序列由驱动虚拟智能客服产生的多帧连续的行为图像构成。

步骤S280：基于答复图像序列，生成并输出针对待处理视频的答复视频。

其中，步骤S240-步骤S280的具体描述请参阅步骤S110-步骤S150，在此不再赘述。

上述实施例提供的交互方法，获取待处理视频，若终端设备的当前模式为非手语识别模型时，基于第一神经网络模型判断待处理视频是否包含手语信息，当待处理视频包含手语信息，将终端设备的当前模式切换为手语识别模式，获取待处理视频中的手语信息，对手语信息进行识别，获取与手语信息对应的答复手语信息，基于答复手语信息生成虚拟智能客服的动作参数，基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列，答复图像序列由驱动虚拟智能客服产生的多帧连续的行为图像构成，基于答复图像序列，生成并输出针对待处理视频的答复视频。通过基于神经网络模型判断待处理视频中包含手语信息时，将终端设备的当前模式切换为手语识别模式，从而可以通过识别待处理视频即可打开手语识别模式，无需用户手动切换手语识别模式，减少用户操作，提升用户使用该移动终端的便利性。

请参阅图5，图5示出了本申请实施例提供的又一交互方法的流程示意图，该方法包括：

步骤S310：当终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息。

其中，步骤S310的具体描述请参阅步骤S110，在此不再赘述。

步骤S320：将手语信息输入第二神经网络模型，获得与手语信息对应的文本信息，其中，第二神经网络模型是通过将样本手语信息作为输入，将样本手语信息对应的文本信息作为输出，基于机器学习算法训练得到的。

在本申请实施例中，第二神经网络模型，可以是基于大量真人手语视频以及对应的文本信息的训练样本，通过神经网络训练得到的(具体地可以是LSTM模型)。可以理解的是，第二神经网络模型，是用于将手语信息转换为对应的文本信息的模型。通过将之前获取的手语信息输入第二神经网络模型，即可由第二神经网络模型输出与手语信息对应的文本信息。

步骤S330：基于文本信息查找对应的答复文本信息。

在一些实施方式中，答复文本信息可以是基于上述文本信息在问答库中查询并获取与文本信息对应的答复文本信息，其中，问答库包括预存的文本信息和与文本信息对应的预存的答复文本信息，每个文本信息与其匹配的答复文本信息一一对应。例如问答库中预存的文本信息可以是完整的问题如“你们店铺包邮吗？”，从而基于该文本信息，可以获取与该文本信息对应的答复文本信息。

在另一些实施方式中，答复文本信息也可以是基于问答模型获取的，具体地，可以将文本信息输入问答模型，通过问答模型获取与该文本信息对应的答复文本信息。其中，问答模型可以是基于大量的问答对训练得到的，例如可以将从海量人工客服的沟通记录得到的海量问答视频作为训练样本，将文本信息作为输入，文本信息对应的答复文本信息作为期望输出，基于机器学习的方法训练得到问答模型，从而通过问答模型获取与文本信息对应的答复文本信息。

步骤S340:将答复文本信息输入第三神经网络模型，获得与答复文本信息对应的答复手语信息，其中，第三神经网络模型是通过将样本答复文本信息作为输入，将样本答复文本信息对应的答复手语信息作为输出，基于机器学习算法训练得到的。

在本申请实施例中，第三神经网络模型，可以是基于大量的文本信息以及文本信息对应的手语信息大量真人手语视频以及对应的文本信息的训练样本，通过神经网络训练得到的(具体地可以是LSTM模型)。可以理解的是，第三神经网络模型，是用于将答复文本信息转换为对应的答复手语信息的模型。通过将之前获取的答复文本信息输入第三神经网络模型，即可由第三神经网络模型输出与答复文本信息对应的答复手语信息。

步骤S350：基于答复手语信息生成虚拟智能客服的动作参数。

步骤S360：基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列，答复图像序列由驱动虚拟智能客服产生的多帧连续的行为图像构成。

步骤S370：基于答复图像序列，生成并输出针对待处理视频的答复视频。

其中，步骤S350-步骤S370的具体描述请参阅步骤S130-步骤S150，在此不再赘述。

上述实施例提供的交互方法，当终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息；将手语信息输入第二神经网络模型，获得与手语信息对应的文本信息，其中，第二神经网络模型是通过将样本手语信息作为输入，将样本手语信息对应的文本信息作为输出，基于机器学习算法训练得到的；基于文本信息查找对应的答复文本信息；将答复文本信息输入第三神经网络模型是通过将样本答复文本信息作为输入，将样本答复文本信息对应的答复手语信息作为输出，基于机器学习算法训练得到的；基于答复手语信息生成虚拟智能客服的动作参数；基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列，答复图像序列由驱动虚拟智能客服产生的多帧连续的行为图像构成；基于答复图像序列，生成并输出针对待处理视频的答复视频。通过采用第二神经网络模型以及第三神经网络模型，对手语信息进行识别得到对应的答复手语信息，从而提高对手语识别的准确性，以及提高生成的答复手语信息的准确性。

请参阅图6，图6示出了本申请实施例提供的再一交互方法的流程示意图，该方法包括：

步骤S410：当检测到待处理视频中的手部动作由静止切换为变化时，获取手部动作变化时对应的时间作为第一时间。

在本申请实施例中，当终端设备的当前模式为手语识别模式，可以检测待处理视频中的手部动作。具体地，可以将待处理视频分解为多帧视频图像，从多帧视频图像中挑选出包含手部动作的视频图像。当检测到待处理视频中的手部动作由静止切换为变化时，可以获取手部动作变化时对应的时间作为第一时间。

在一些实施方式中，可以获取连续的多帧视频图像，并随机选取相邻的两帧视频图像(为描述方便，将相邻的这两帧视频图像命名为第一视频图像和第二视频图像，其中，第一视频图像为第二视频图像的前一帧视频图像，命名在此不作限定)，可以判断第二视频图像中的手部动作相比于第一视频图像中的手部动作是否发生了变化，其中，第一视频图像中的手部动作相比于第一视频图像的前几帧视频图像中的手部动作没有发生变化。若第二视频图像中的手部动作相比于第一视频图像中的手部动作发生了变化，即待处理视频中的手部动作由静止切换为变化，则可以获取手部动作变化时对应的时间，即第二视频图像对应的时间为第一时间。在一些实施方式中，检测手部动作是否发生了变化，可以检测视频图像中的手部的位移是否发生了变化，也可以检测手部的关节的旋转角度是否发生了变化，再次不做限定。

步骤S420：当检测到待处理视频中的手部动作由变化切换为静止状态时，获取手部动作处于静止状态时对应的时间作为第二时间。

在本申请实施例中，当检测到待处理视频中的手部动作由变化切换为静止状态时，可以获取手部动作处于静止状态时对应的时间作为第二时间。

在一些实施方式中，可以获取连续的多帧视频图像，并随机选取相邻的两帧视频图像(为描述方便，将相邻的这两帧视频图像命名为第三视频图像和第四视频图像，其中，第三视频图像为第四视频图像的前一帧视频图像，命名在此不作限定)，可以判断第四视频图像中的手部动作相比于第三视频图像中的手部动作是否发生了变化。其中，第三视频图像对应的时间晚于上述的第二视频图像对应的时间，第三视频图像中的手部动作相比于第三视频图像相邻的前一帧视频图像中的手部动作发生了变化，第四视频图像中的手部动作相比于第四视频图像的后一帧视频图像中的手部动作没有变化。若第四视频图像中的手部动作相比于第三视频图像中的手部动作没有变化，即待处理视频中的手部动作由变化切换为静止状态时，可以获取手部动作处于静止状态时对应的时间，即第三视频图像对应的时间，作为第二时间。

步骤S430：当检测到待处理视频中的手部动作再次由静止切换为变化时，获取手部动作再次变化时对应的时间作为第三时间。

在本申请实施例中，当检测到待处理视频中的手部动作再次由静止切换为变化时，可以获取手部动作再次变化时对应的时间作为第三时间。

在一些实施方式中，可以继续获取连续的多帧视频图像，并随机选取相邻的两帧视频图像(为描述方便，将相邻的这两帧视频图像命名为第五视频图像和第六视频图像，其中，第五视频图像为第六视频图像的前一帧视频图像，命名在此不作限定)，可以判断第六视频图像中的手部动作相比于第五视频图像中的手部动作是否发生了变化，其中，第五视频图像中的手部动作与上述第三视频图像中的手部动作一致，第五视频图像对应的时间晚于上述的第四视频图像对应的时间。若第六视频图像中的手部动作相比于第五视频图像中的手部动作发生了变化，即待处理视频中的手部动作再次由静止切换为变化，则可以获取手部动作变化时对应的时间，即第六视频图像对应的时间为第三时间。在一些实施方式中，检测手部动作是否发生了变化，可以检测视频图像中的手部的位移是否发生了变化，也可以检测手部的关节的旋转角度是否发生了变化，再次不做限定。

步骤S440：计算第二时间与第三时间之间的时间间隔。

在一些实施方式中，为了准确的判断用户所输入的手语是否为完整的一句话，进而防止由于判断错误导致的识别文本信息有误，可以根据用户在输入手语之后产生的停顿的时长，即可以计算上述的第二时间与第三时间之间的时间间隔判断是否为完整的一句话。

步骤S450：判断时间间隔是否满足预设时长。

在本申请实施例中，可以将计算得到的第二时间与第三时间之间的时间间隔，与预设时长进行比较，其中，预设时长可以是由系统预先设置的，也可以是用户根据自己使用手语的习惯进行设置的。在一些实施方式中，判断时间间隔是否满足预设时长，可以是判断时间间隔是否等于预设时长，也可以是判断时间间隔是否大于预设时长。

在一些实施方式中，由于不同用户使用手语的速度不同，进而可能导致用户表达完整的一句话后的停顿时间不同，于是，可以根据用户手语的速度确定预设时长。具体地，可以获取待处理视频中的手语信息在预设时间段内的数量，例如，可以获取三十秒内的手语信息的数量。然后可以根据预设时间段和数量计算得到待处理视频中的手语信息的变化速度，即用户手语的速度，例如，获取三十秒内的手语信息的数量为六十个，则可以计算得到手语信息的变化速度为每秒两个手语信息。进而可以手语信息的变化速度确定与该变化速度对应的预设时长，其中，可以预先设置有变化速度与预设时长的对应表，基于该对应表以及计算得到的变化速度，即可得到该变化速度对应的预设时长。例如，变化速度为每秒两个手语信息，则可以根据预先设置的对应表，得到对应的预设时长为1秒。

步骤S460：当时间间隔满足预设时长时，获取第一时间与第二时间之间的待处理视频中的所有手语信息。

在本申请实施例中，当时间间隔满足预设时长时，可以表示第一时间与第二时间之间的所有手语信息表达了完整的一句话，于是可以获取第一时间与第二时间之间的待处理视频中的所有手语信息。其中，时间间隔满足预设时长，可以是时间间隔等于预设时长，例如，第二时间为17：13：22，第三时间为17：13：23，第二时间与第三时间之间的时间间隔为1秒，预设时长为1秒，故时间间隔等于预设时长，即时间间隔满足预设时长。时间间隔满足预设时长，也可以是时间间隔大于预设时长，例如，第二时间为17：13：22，第三时间为17：13：23，第二时间与第三时间之间的时间间隔为1秒，而预设时长为0.9秒，故时间间隔大于预设时长，即时间间隔满足预设时长。当时间间隔满足预设时长时，则可以获取上述的第二视频图像与第三视频图像之间的所有帧视频图像中的手语信息。

步骤S470：对手语信息进行识别，获取与手语信息对应的答复手语信息。

步骤S480：基于答复手语信息生成虚拟智能客服的动作参数。

步骤S490：基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列，答复图像序列由驱动虚拟智能客服产生的多帧连续的行为图像构成。

步骤S500：基于答复图像序列，生成并输出针对待处理视频的答复视频。

其中，步骤S470-步骤S500的具体描述请参阅步骤S120-步骤S150，在此不再赘述。

上述实施例提供的交互方法，当检测到待处理视频中的手部动作由静止切换为变化时，获取手部动作变化时对应的时间作为第一时间；当检测到待处理视频中的手部动作由变化切换为静止状态时，获取手部动作处于静止状态时对应的时间作为第二时间；当检测到待处理视频中的手部动作再次由静止切换为变化时，获取手部动作再次变化时对应的时间作为第三时间；计算第二时间与第三时间之间的时间间隔；判断时间间隔是否满足预设时长；当时间间隔满足预设时长时，获取第一时间与第二时间之间的待处理视频中的所有手语信息；对手语信息进行识别，获取与手语信息对应的答复手语信息；基于答复手语信息生成虚拟智能客服的动作参数；基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列，答复图像序列由驱动虚拟智能客服产生的多帧连续的行为图像构成；基于答复图像序列，生成并输出针对待处理视频的答复视频。通过检测手部动作停顿的间隔是否满足预设时长，确定手部动作停顿时是否作为一句话的结束，以此确定一条表达完整语义的手语信息，使得获取到的手语信息的语义为完整的语义。

请参阅图7，图7示出了本申请实施例提供的又再一交互方法的流程示意图，待处理视频包括人脸图像，该方法包括：

步骤S610：当终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息。

步骤S620：对手语信息进行识别，获取与手语信息对应的答复手语信息。

步骤S630：基于答复手语信息生成虚拟智能客服的动作参数。

其中，步骤S610-步骤S630的具体描述请参阅步骤S110-步骤S130，在此不再赘述。

步骤S640：对人脸图像进行分析，获得虚拟智能客服的面部形象参数。

在一些实施方式中，待处理视频中还可以包括人脸图像，该人脸图像为用户的真实人脸图像，而为了使得虚拟智能客服与用户的交互更加自然，可以根据该人脸图像生成匹配的虚拟智能客服的人脸图像以提升用户体验。在一些实施方式中，可以对该人脸图像进行分析，获得虚拟智能客服的面部形象参数。其中，面部形象参数可以包括脸部特征点的相对位置关系、唇部关键点信息等。

作为一种实施方式，可以预先获取大量的人脸图像以及人脸图像对应的面部形象参数作为训练样本集，并将训练样本集输入机器学习模型进行训练，得到人脸图像分析对应的神经网络模型，从而可以将人脸图像输入人脸图像分析对应的神经网络模型，得到虚拟智能客服的面部形象参数。其中，人脸图像分析对应的神经网络模型可以是循环神经网络(recurrent neural network，RNN)或者长短期记忆网络(long short-term memory，LSTM)等神经网络模型。

步骤S650：基于面部形象参数获取模拟人脸图像，并将虚拟智能客服的人脸图像替换为模拟人脸图像。

根据上述获得的面部形象参数可以将虚拟智能客服的人脸图像进行替换，可选地，可以基于面部形象参数调节虚拟智能客服的三维模型中的面部区域从而得到模拟人脸图像，也可以基于深度学习模型输入面部形象参数获得模拟人脸图像。在获取模拟人脸图像后，即可将虚拟智能客服的人脸图像替换为模拟人脸图像。

在一些实施方式中，根据模拟人脸图像对应真实人脸区域的不同，虚拟智能客服的人脸图像的替换，可以是全部替换，也可以是局部替换。具体地，可以确定与模拟人脸图像对应的虚拟智能客服的人脸图像替换区域，其中，人脸图像替换区域为虚拟智能客服的人脸图像的局部区域或全部区域，并将模拟人脸图像覆盖至人脸图像替换区域。

作为一种实施方式，若模拟人脸图像为整个人脸模拟，则对应的人脸图像替换区域为虚拟智能客服的整个人脸图像的区域，则可以将模拟人脸图像覆盖至虚拟智能客服的人脸图像中的整个人脸区域即可。作为另一种实施方式，若模拟人脸图像为局部图像，例如嘴部图像，则可以确定虚拟智能客服的嘴部图像所对应的替换区域，并将该嘴部图像覆盖叠加至虚拟智能客服的嘴部位置，最终获得的图像可以为模拟人脸图像与背景图像(背景图像一般可包括人的身体其他部位例如除嘴部之外的其他部位，以及真实环境背景等)叠加后的图像，而除该部分区域以外的虚拟智能客服的其他区域则可以保留原有的图像。

步骤S660：基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列，答复图像序列由驱动虚拟智能客服产生的多帧连续的行为图像构成。

在本申请实施例中，可以通过动作参数，对虚拟智能客服的动作进行驱动，即可获得虚拟智能客服的行为图像，进而可以根据连续的多帧行为图像，生成答复图像序列。其中，虚拟智能客服的人脸图像为基于上述面部形象参数更新后的人脸图像。

步骤S670：基于答复图像序列，生成并输出针对待处理视频的答复视频。

其中，步骤S670的具体描述请参阅步骤S150，在此不再赘述。

上述实施例提供的交互方法，当终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息；对手语信息进行识别，获取与手语信息对应的答复手语信息；基于答复手语信息生成虚拟智能客服的动作参数；对人脸图像进行分析，获得虚拟智能客服的面部形象参数；基于面部形象参数获取模拟人脸图像，并将虚拟智能客服的人脸图像替换为模拟人脸图像；基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列，答复图像序列由驱动虚拟智能客服产生的多帧连续的行为图像构成；基于答复图像序列，生成并输出针对待处理视频的答复视频。通过基于待处理视频中的人脸图像，获得虚拟智能客服的面部形象参数，从而根据用户的人脸图像个性化设置虚拟智能客服的面容，使得虚拟智能客服的形象更加逼真和自然。

请参阅图8，图8示出了本申请实施例提供的交互装置200的结构框图。下面将针对图8所示的框图进行阐述，所述交互装置200包括：信息获取模块210、信息识别模块220、参数生成模块230、序列生成模块240以及视频生成模块250，其中：

信息获取模块210，用于当终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息。

进一步地，信息获取模块210还包括：第一时间获取子模块、第二时间获取子模块、第三时间获取子模块、时间间隔计算子模块、时间间隔判断子模块以及手语信息获取子模块，其中：

第一时间获取子模块，用于当检测到待处理视频中的手部动作由静止切换为变化时，获取手部动作变化时对应的时间作为第一时间。

第二时间获取子模块，用于当检测到待处理视频中的手部动作由变化切换为静止状态时，获取手部动作处于静止状态时对应的时间作为第二时间。

第三时间获取子模块，用于当检测到待处理视频中的手部动作再次由静止切换为变化时，获取手部动作再次变化时对应的时间作为第三时间。

时间间隔计算子模块，用于计算第二时间与第三时间之间的时间间隔。

时间间隔判断子模块，用于判断时间间隔是否满足预设时长。

手语信息获取子模块，用于当时间间隔满足预设时长时，获取第一时间与第二时间之间的待处理视频中的所有手语信息。

进一步地，信息获取模块210还包括：数量获取子模块、变化速度计算子模块以及预设时长确定子模块，其中：

数量获取子模块，用于获取待处理视频中的手语信息在预设时间段内的数量。

变化速度计算子模块，用于基于预设时间段和数量计算得到待处理视频中的手语信息的变化速度。

预设时长确定子模块，用于基于手语信息的变化速度确定与变化速度对应的预设时长。

信息识别模块220，用于对手语信息进行识别，获取与手语信息对应的答复手语信息。

进一步地，信息识别模块220还包括：文本信息获得子模块、文本信息查找子模块以及答复手语信息获得子模块，其中：

文本信息获得子模块，用于将手语信息输入第二神经网络模型，获得与手语信息对应的文本信息，其中，第二神经网络模型是通过将样本手语信息作为输入，将样本手语信息对应的文本信息作为输出，基于机器学习算法训练得到的。

文本信息查找子模块，用于基于文本信息查找对应的答复文本信息。

答复手语信息获得子模块，用于将答复文本信息输入第三神经网络模型，获得与答复文本信息对应的答复手语信息，其中，第三神经网络模型是通过将样本答复文本信息作为输入，将样本答复文本信息对应的答复手语信息作为输出，基于机器学习算法训练得到的。

参数生成模块230，用于基于答复手语信息生成虚拟智能客服的动作参数。

序列生成模块240，用于基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列，答复图像序列由驱动虚拟智能客服产生的多帧连续的行为图像构成。

视频生成模块250，用于基于答复图像序列，生成并输出针对待处理视频的答复视频。

进一步地，交互装置200还包括：视频获取模块、信息判断模块以及模式切换模块，其中：

视频获取模块，用于获取待处理视频。

信息判断模块，用于若终端设备的当前模式为非手语识别模式时，基于第一神经网络模型判断待处理视频是否包含手语信息。

进一步地，待处理视频包括语音信息，信息判断模块还包括：语音信息识别子模块以及信息判断子模块，其中：

语音信息识别子模块，用于对语音信息进行识别。

信息判断子模块，用于当语音信息对应的识别内容为无意义内容时，基于第一神经网络模型判断待处理视频是否包含手语信息。

模式切换模块，用于当待处理视频包含手语信息时，将终端设备的当前模式切换为手语识别模式。

进一步地，交互装置200还包括：参数获取模块以及图像替换模块，其中：

参数获取模块，用于对人脸图像进行分析，获取虚拟智能客服的面部形象参数。

图像替换模块，用于基于面部形象参数获得模拟人脸图像，并将虚拟智能客服的人脸图像替换为模拟人脸图像。

所属领域的技术人员可以清楚地了解到，本申请实施例提供的交互装置能够实现前述方法实施例中的各个过程，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参阅前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图9，其示出了本申请实施例提供的一种终端设备110的结构框图。该终端设备110可以是智能手机、平板电脑、电子书等能够运行应用程序的终端设备。本申请中的终端设备110可以包括一个或多个如下部件：处理器111、存储器112以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器112中并被配置为由一个或多个处理器111执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器111可以包括一个或者多个处理核。处理器111利用各种接口和线路连接整个终端设备110内的各个部分，通过运行或执行存储在存储器112内的指令、程序、代码集或指令集，以及调用存储在存储器112内的数据，执行终端设备110的各种功能和处理数据。可选地，处理器111可以采用数字信号处理(digital signal processing，DSP)、现场可编程门阵列(field－programmable gate array，FPGA)、可编程逻辑阵列(programmable logicarray，PLA)中的至少一种硬件形式来实现。处理器111可集成中央处理器(centralprocessing unit，CPU)、图像处理器(graphics processing unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器111中，单独通过一块通信芯片进行实现。

存储器112可以包括随机存储器(random access memory，RAM)，也可以包括只读存储器(read-only memory，ROM)。存储器112可用于存储指令、程序、代码、代码集或指令集。存储器112可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端设备110在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参阅图10，其示出了本申请实施例提供的一种计算机可读取存储介质的结构框图。该计算机可读取存储介质300中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读取存储介质300可以是诸如闪存、电可擦除可编程只读存储器(electrically-erasable programmable read-only memory，EEPROM)、可擦除可编程只读存储器(erasable programmable read only memory，EPROM)、硬盘或者ROM之类的电子存储器。可选地，计算机可读取存储介质300包括非易失性计算机可读介质(non-transitorycomputer-readable storage medium)。计算机可读取存储介质300具有执行上述方法中的任何方法步骤的程序代码310的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码310可以例如以适当形式进行压缩。

综上所述，本申请实施例提供的交互方法、装置、终端设备及存储介质，该方法包括：当终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息；对该手语信息进行识别，获取与该手语信息对应的答复手语信息；基于答复手语信息生成虚拟智能客服的动作参数；基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列，答复图像序列由驱动虚拟智能客服产生的多帧连续的行为图像构成；基于答复图像序列，生成并输出针对待处理视频的答复视频。通过对待处理视频中的手语信息进行识别，获取与该手语信息对应的答复手语信息，基于答复手语信息生成虚拟智能客服的动作参数，从而使得聋哑人可以通过手语与虚拟智能客服进行交互。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种交互方法，其特征在于，应用于终端设备，所述方法包括：

获取待处理视频；

若所述终端设备的当前模式为非手语识别模式时，对所述待处理视频的语音信息进行识别，并当所述语音信息对应的识别内容为无意义内容时，基于第一神经网络模型判断所述待处理视频是否包含手语信息；

当所述待处理视频包含手语信息时，将所述终端设备的当前模式切换为手语识别模式；

当所述终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息；

将所述手语信息输入至第二神经网络模型，得到所述手语信息对应的文本信息；

将所述文本信息输入至问答模型，得到所述文本信息对应的答复文本信息；

将所述答复文本信息输入至第三神经网络模型，得到所述答复文本信息对应的答复手语信息；

基于所述答复手语信息生成虚拟智能客服的动作参数；

基于所述动作参数，对所述虚拟智能客服的动作进行驱动，生成答复图像序列，所述答复图像序列由驱动所述虚拟智能客服产生的多帧连续的行为图像构成；

基于所述答复图像序列，生成并输出针对所述待处理视频的答复视频。

2.根据权利要求1所述的方法，其特征在于，所述第二神经网络模型是通过将样本手语信息作为输入，将样本手语信息对应的文本信息作为输出，基于机器学习算法训练得到的；所述第三神经网络模型是通过将样本答复文本信息作为输入，将样本答复文本信息对应的答复手语信息作为输出，基于机器学习算法训练得到的。

3.根据权利要求1或2所述的方法，其特征在于，所述获取待处理视频中的手语信息，包括：

当检测到所述待处理视频中的手部动作由静止切换为变化时，获取手部动作变化时对应的时间作为第一时间；

当检测到所述待处理视频中的手部动作由变化切换为静止状态时，获取手部动作处于静止状态时对应的时间作为第二时间；

当检测到所述待处理视频中的手部动作再次由静止切换为变化时，获取手部动作再次变化时对应的时间作为第三时间；

计算所述第二时间与所述第三时间之间的时间间隔；

判断所述时间间隔是否满足预设时长；

当所述时间间隔满足所述预设时长时，获取所述第一时间与所述第二时间之间的待处理视频中的所有手语信息。

4.根据权利要求3所述的方法，其特征在于，所述判断所述时间间隔是否满足预设时长之前，还包括：

获取待处理视频中的手语信息在预设时间段内的数量；

基于所述预设时间段和所述数量计算得到所述待处理视频中的手语信息的变化速度；

基于所述手语信息的变化速度确定与所述变化速度对应的预设时长。

5.根据权利要求1所述的方法，其特征在于，所述待处理视频包括人脸图像，所述基于所述答复手语信息生成虚拟智能客服的动作参数之后，还包括：

对所述人脸图像进行分析，获取所述虚拟智能客服的面部形象参数；

基于所述面部形象参数获得模拟人脸图像，并将所述虚拟智能客服的人脸图像替换为所述模拟人脸图像。

6.一种交互装置，其特征在于，应用于终端设备，所述装置包括：

视频获取模块，用于获取待处理视频；

信息判断模块，用于若终端设备的当前模式为非手语识别模式时，对所述待处理视频的语音信息进行识别，并当所述语音信息对应的识别内容为无意义内容时，基于第一神经网络模型判断所述待处理视频是否包含手语信息；

模式切换模块，用于当待处理视频包含手语信息时，将终端设备的当前模式切换为手语识别模式；

信息获取模块，用于当所述终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息；

信息识别模块，用于将所述手语信息输入至第二神经网络模型，得到所述手语信息对应的文本信息；将所述文本信息输入至问答模型，得到所述文本信息对应的答复文本信息；将所述答复文本信息输入至第三神经网络模型，得到所述答复文本信息对应的答复手语信息；

参数生成模块，用于基于所述答复手语信息生成虚拟智能客服的动作参数；

序列生成模块，用于基于所述动作参数，对所述虚拟智能客服的动作进行驱动，生成答复图像序列，所述答复图像序列由驱动所述虚拟智能客服产生的多帧连续的行为图像构成；

视频生成模块，用于基于所述答复图像序列，生成并输出针对所述待处理视频的答复视频。

7.一种终端设备，其特征在于，包括存储器和处理器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时所述处理器执行如权利要求1-5任一项所述的方法。

8.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-5任一项所述的方法。