CN114268747A

CN114268747A - 基于虚拟数字人的访谈业务处理方法及相关装置

Info

Publication number: CN114268747A
Application number: CN202111583742.8A
Authority: CN
Inventors: 王子敬; 陈鑫; 吴磊
Original assignee: CCB Finetech Co Ltd
Current assignee: CCB Finetech Co Ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-04-01

Abstract

本申请公开了人工智能技术领域中一种基于虚拟数字人的访谈业务处理方法及相关装置。本申请提供的技术方案，获取目标用户的输入信息，输入信息包括目标用户的视频信息、语音信息和文本信息；根据输入信息，提取目标用户的特征信息；根据目标用户的特征信息，生成虚拟数字人的初始虚拟视频；根据访谈决策模型对初始虚拟视频进行调整，得到目标虚拟视频，并输出目标虚拟视频，提高了用户与虚拟数字人交互的灵活性，提升了用户与虚拟数字人的交互体验；另外，还可以根据获取的目标用户的状态信息确定与该状态信息对应的离线视频，并输出该离线视频，提高了虚拟数字人的并发用户数。

Description

基于虚拟数字人的访谈业务处理方法及相关装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于虚拟数字人的访谈业务处理方法及相关装置。

背景技术

在人工智能和虚拟现实等技术高速发展的推动下，虚拟数字人在制作和性能等方面得到了巨大的优化，其发展逐渐从简单的外观数字化向深入到行为交互的智能化转变。

目前，用于访谈业务的虚拟数字人的访谈话术需要人工提前进行配置，在与用户的交互过程中，虚拟数字人按照预设的访谈话术与用户进行交流，降低了用户与虚拟数字人交互的灵活性，大大影响了用户的交互体验。

发明内容

本申请提供了一种基于虚拟数字人的访谈业务处理方法及相关装置，提高了用户与虚拟数字人交互的灵活性，提升了用户与虚拟数字人的交互体验。

第一方面，本申请提供一种基于虚拟数字人的访谈业务处理方法，所述方法包括：获取目标用户的输入信息，所述输入信息包括所述目标用户的视频信息、语音信息和文本信息；根据所述输入信息，提取所述目标用户的特征信息；根据所述特征信息，生成所述虚拟数字人的初始虚拟视频；根据访谈决策模型对所述初始虚拟视频进行调整，得到目标虚拟视频；输出所述目标虚拟视频。

本方法中，根据获取的目标用户的输入信息，提取目标用户的特征信息，再根据目标用户的特征信息，生成虚拟数字人的初始虚拟视频，使用访谈决策模型对初始虚拟视频进行调整，得到目标虚拟视频并输出，提高了用户与虚拟数字人交互的灵活性，提升了用户与虚拟数字人的交互体验。

在一种可能的实现方式中，所述访谈决策模型包括用户的状态信息与离线视频的映射关系；相应地，所述方法还包括：获取所述目标用户的状态信息；根据所述状态信息和所述访谈决策模型中的用户的状态信息与离线视频的映射关系，确定目标离线视频；输出所述目标离线视频。

该实现方式中，根据获取的目标用户的状态信息确定与该状态信息对应的离线视频，并输出该离线视频，提高了虚拟数字人的并发用户数。

在一种可能的实现方式中，所述方法还包括：根据所述目标用户的视频信息，判断所述目标用户是否位于预设范围内；若所述目标用户没有位于所述预设范围内，则终止输出所述目标虚拟视频。

该实现方式中，根据目标用户的视频信息，对目标用户进行在框检测，判断目标用户是否在预设范围内，若目标用户没有位于预设范围内，则终止输出目标虚拟视频，节约了资源，为特定业务要求提供了支持。

在一种可能的实现方式中，所述根据所述目标用户的视频信息，判断所述目标用户是否位于预设范围内，包括：获取所述目标用户的视频信息中的每一帧图像；对所述每一帧图像进行检测，若没有出现所述目标用户的图像的个数超过预设数量，则确定所述目标用户没有位于所述预设范围内。

该实现方式中，对目标用户的视频信息中的每一帧图像进行检测，若没有出现目标用户的图像的个数超过预设数量，则确定目标用户没有位于预设范围内，提高了判断目标用户是否位于预设范围内的准确度。

在一种可能的实现方式中，所述根据所述目标用户的视频信息，判断所述目标用户是否位于预设范围内，包括：根据预设周期定时获取所述目标用户的视频信息中的图像，若没有出现所述目标用户的图像的数量超过预设数量，则确定所述目标用户没有位于所述预设范围内。

该实现方式中，根据预设周期获取用户设备的视频信息中的第一图像，若第一图像中没有出现目标用户，则确定目标用户没有位于预设范围内，提高了判断目标用户是否位于预设范围内的准确度。

在一种可能的实现方式中，所述初始虚拟视频包括所述虚拟数字人的语音信息和动画信息，所述动画信息包括所述虚拟数字人的面部表情和口型；相应地，所述根据所述特征信息，生成所述虚拟数字人的初始虚拟视频，包括：根据所述特征信息，生成访谈文字信息；将所述访谈文字信息转化为所述虚拟数字人的语音信息；提取所述访谈文字信息中的关键字；根据所述关键字和预设的关键字与面部表情的对应关系，生成所述虚拟数字人的面部表情；根据所述虚拟数字人的语音信息，生成所述虚拟数字人的口型。

该实现方式中，根据目标用户的特征信息，生成访谈文字信息，提取访谈文字信息中的关键字，根据关键字和预设的关键字与面部表情的对应关系，生成虚拟数字人的面部表情，根据提取的关键字和预设的关键字与口型的对应关系，生成虚拟数字人的口型，使得虚拟数字人的面部表情更加丰富，提升了用户与虚拟数字人的交互体验。

第二方面，本申请提供一种基于虚拟数字人的访谈业务处理装置，所述装置包括：获取模块，用于获取目标用户的输入信息，所述输入信息包括所述目标用户的视频信息、语音信息和文本信息；提取模块，用于根据所述输入信息，提取所述目标用户的特征信息；生成模块，用于根据所述特征信息，生成所述虚拟数字人的初始虚拟视频；调整模块，用于根据访谈决策模型对所述初始虚拟视频进行调整，得到目标虚拟视频；输出模块，用于输出所述目标虚拟视频。

在一种可能的实现方式中，所述访谈决策模型包括用户的状态信息与离线视频的映射关系；相应地，所述输出模块还用于：获取所述目标用户的状态信息；根据所述状态信息和所述访谈决策模型中的用户的状态信息与离线视频的映射关系，确定目标离线视频；输出所述目标离线视频。

在一种可能的实现方式中，所述装置还包括判断模块，所述判断模块还用于：根据所述目标用户的视频信息，判断所述目标用户是否位于预设范围内；若所述目标用户没有位于所述预设范围内，则终止输出所述目标虚拟视频。

在一种可能的实现方式中，所述判断模块还用于：获取所述目标用户的视频信息中的每一帧图像；对所述每一帧图像进行检测，若没有出现所述目标用户的图像的个数超过预设数量，则确定所述目标用户没有位于所述预设范围内。

在一种可能的实现方式中，所述判断模块还用于：根据预设周期定时获取所述目标用户的视频信息中的图像，若没有出现所述目标用户的图像的数量超过预设数量，则确定所述目标用户没有位于所述预设范围内。

在一种可能的实现方式中，所述初始虚拟视频包括所述虚拟数字人的语音信息和动画信息，所述动画信息包括所述虚拟数字人的面部表情和口型；相应地，所述生成模块还用于：根据所述特征信息，生成访谈文字信息；将所述访谈文字信息转化为所述虚拟数字人的语音信息；提取所述访谈文字信息中的关键字；根据所述关键字和预设的关键字与面部表情的对应关系，生成所述虚拟数字人的面部表情；根据所述虚拟数字人的语音信息，生成所述虚拟数字人的口型。

第二方面及第二方面的各种可能的实现方式中的有益效果可参见第一方面及第一方面的各种可能的实现方式中的有益效果，此处不再赘述。

第三方面，本申请提供一种基于虚拟数字人的访谈业务处理装置。该装置可以包括与存储器耦合的处理器。其中，该存储器用于存储程序代码，该处理器用于执行该存储器中的程序代码，以实现第一方面或其中任意一种实现方式中的方法。

可选地，该装置还可以包括该存储器。

第四方面，本申请提供一种芯片，包括至少一个处理器和通信接口，所述通信接口和所述至少一个处理器通过线路互联，所述至少一个处理器用于运行计算机程序或指令，以执行如第一方面或其中任意一种可能的实现方式所述的方法。

第五方面，本申请提供一种计算机可读介质，该计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行如第一方面或其中任意一种可能的实现方式所述的方法。

第六方面，本申请提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行如第一方面或其中任意一种可能的实现方式所述的方法。

第七方面，本申请提供一种计算设备，包括至少一个处理器和通信接口，所述通信接口和所述至少一个处理器通过线路互联，所述通信接口与目标系统通信，所述至少一个处理器用于运行计算机程序或指令，以执行如第一方面或其中任意一种可能的实现方式所述的方法。

第八方面，本申请提供一种计算系统，包括至少一个处理器和通信接口，所述通信接口和所述至少一个处理器通过线路互联，所述通信接口与目标系统通信，所述至少一个处理器用于运行计算机程序或指令，以执行如第一方面或其中任意一种可能的实现方式所述的方法。

附图说明

图1为本申请的实施例的一种系统架构的示意图；

图2为本申请的实施例的一种基于虚拟数字人的访谈业务处理方法的流程示意图；

图3为本申请一个实施例的一种基于虚拟数字人的访谈业务处理方法的流程示意图；

图4为本申请一个实施例提供的基于虚拟数字人的访谈业务处理装置的结构示意图。

具体实施方式

下面将结合本申请的实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请的实施例的一种系统架构的示意图。如图1所示，基于虚拟数字人的访谈业务处理系统100包括图像识别模块110、语音语义识别模块120、信息融合模块130、虚拟视频生成模块140和智能访谈管理模块150。其中，图像识别模块110包括图像预处理模块111、身份认证模块112和在框检测模块113；虚拟视频生成模块140包括语音生成模块141和动画生成模块142；智能访谈管理模块150包括访谈决策图模块151、离线视频库152和特殊处理及优化模块153。

图像识别模块110用于在前端实现用户的身份认证，并结合业务需求支持更严格的实时验证要求，例如实时对用户进行在框检测。其中，图像预处理模块111用于图像数据的预处理。在实际使用场景中，由于移动设备本身和用户使用习惯和环境的不同，会产生诸如分辨率较低、人脸区域过小和整体亮度不足等问题。图像预处理模块111通过标准化、规范化等方法，优化待识别的图片，提高图像识别精度；身份认证模块112用于对图像预处理模块111中处理完的图像进行身份的识别认证。例如，利用计算机视觉技术在用户设备上实现对用户身份的认证；在框检测模块113用于用户的在框检测，基于采集的视频流数据，采用图像识别算法实时检测用户是否保持在摄像头可见范围内，并且根据具体的业务规范要求，当用户出框超过一定时间后，做出相应的反应，例如暂停或终止访谈等。

作为一种示例，考虑到算法可能存在极小概率的误检，因此可以设置一个较短的经验性的容忍条件。如果在一个较小的时间内检测用户在框，则当前帧即使未检测到用户，依然认定用户在框，不触发出框提示。

另外，设置了实时检测机制和定时查询机制，来确保在框检测的实现。其中，实时检测机制是指在框检测模块113对视频流的每一帧图像实时进行在框检测，当超过允许出框时间后，认定用户不在摄像头可见范围内，并触发出框提示。定时查询机制是指在框检测模块113每隔允许的时间向后端服务器传递查询在框信号，后端服务器被动检测当前帧的图像后将在框检测结果返回在框检测模块113。

语音语义识别模块120用于将采集的语音信息转化为相应的文本信息。语义识别的核心除了理解文本词汇的含义，还要理解某个词语在上下文中所代表的意思，做到不同层面的语义分析和歧义消除，以及对应的含义重组，最终完成语音信息向文本信息的转化。

信息融合模块130用于接收经过处理完的用户特征和环境设备等相关信息，并进行分析管理。同时，依据用户的设备和网络等状态智能分配用户的访谈模式，完成数据的打包和分发。

作为一种示例，将采集的用户的视频信息、语音信息和文本信息分别经过对应的感知识别，得到不同类型的特征信息，对得到的不同类型的特征信息进行汇总和决策处理，做出合适的响应驱动和访谈模式。其中，决策方法融合了自然语言处理、对话管理、情绪分析等技术，具有类似理性和感性的多维度认知。

虚拟视频生成模块140用于自动合成虚拟数字人仿真表达的虚拟视频。依赖于先进的建模引擎，获取超写实、高自由度的人物形象。使用业界先进的深度学习技术，基于文本实时自动生成虚拟数字人的语音和动画数据，实现了从简单的语音访谈到与有形象的虚拟数字人直接交互的转变。其中，语音生成模块141采用深度神经框架，通过文字合成对应的语音流，模拟真实人声的交流；动画生成模块142用于虚拟数字人说话口型和表情动作的自动合成，直接从语音生成对应到真实、自然的面部口型动作。预先将关键词与表情动作一一建立联系，通过文本触发相应的肢体表达，基于扫描真实人物建立的数据库，通过完整的面部和动作绑定，对虚拟数字人智能施加物理规则，极大地提高了虚拟数字人的可信度。

智能访谈管理模块150用于对通用访谈流程进行管理，支持自适应的新增、删除、修改访谈问题。其中，访谈决策图模块151用于对虚拟视频生成模块140进行采样，生成各种各样不同的可修改动态图结构，用于访谈决策的管理。访谈决策图结构类似于传统的决策树，不同之处在于存在环形结构，决策图结构包括节点、边和变量。节点代表了各种不同的状态，比如，初始状态可用于欢迎用户，而结束状态则可以用于跟用户再见。因此，节点需要保存一些相关信息，包括类型、输入、输出、视频库链接等；边代表了状态之间的转移，包含类型、输入、输出、文本信息等，另外根据具体业务需求，有时候在进行状态转移时会有特定的限制条件，因而边内也可以保存条件信息；变量用于表示用户或者环境的状态，比如访谈进程、用户情绪值、环境安静度等，方便进行状态转移的条件判断。

在访谈决策模型未知的情况下，通过实时采样，自动生成完整的决策图，同时决策图支持即时修改，减少了冗杂的人工作业。

离线视频库152用于储存离线访谈使用的视频，将通过实时访谈在虚拟视频生成模块140中生成的虚拟数字人的动画保存为独立的视频，并与决策图中节点建立对应链接，建立统一的视频库，方便离线访问和视频管理。

特殊处理及优化模块153用于处理访谈中可能遇到的特殊情况，并进行交互过程的优化。比如，由于用户设备自身的原因导致了访谈中断，此时根据记录的用户访谈记录可以轻易地从上次中断状态继续访谈。同时，根据动态提取的客户特征信息，虚拟数字人会做出相应的反应，以优化其访谈交互的自然程度。

可以理解的是，图1所示的系统架构仅是本申请提供的基于虚拟数字人的访谈业务处理系统的一种示例，在本申请另一些实施例中，基于虚拟数字人的访谈业务处理系统100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现，本申请不作限定。

图2为本申请的实施例的一种基于虚拟数字人的访谈业务处理方法的流程示意图。如图2所示，该方法至少包括S201至S205。图2所示的基于虚拟数字人的访谈业务处理方法可以由图1中的基于虚拟数字人的访谈业务处理系统100实现。

S201，获取目标用户的输入信息，输入信息包括目标用户的视频信息、语音信息和文本信息。

虚拟数字人是指依于托显示设备存在，具有数字化外形的虚拟人物，拥有人的外观，具有特定的相貌、性别和性格等人物特征；拥有人的行为，具有用语言、面部表情和肢体动作表达的能力；拥有类似人的思考方式，具有识别外界环境、并能与人交流互动的能力。

在一种可能的实现方式中，输入信息包括目标用户的视频信息、语音信息和文字信息，还可以包括环境信息和用户设备信息等其他信息。其中，环境信息可以以视频信息或图像信息的形式输入，用户设备信息可以以文字信息的形式输入。

S202，根据输入信息，提取目标用户的特征信息。

在一种可能的实现方式中，对于输入信息中的视频信息，可以先提取视频信息中的图像信息，对提取到的图像信息进行标准化或规范化等预处理操作，实现对待识别图片的优化，使用图像识别技术提取待识别图片中的特征信息。

作为一种示例，上述对提取到的图像信息进行标准化或规范化等预处理操作可以由图1中的图像预处理模块111实现。

在另一种可能的实现方式中，对于输入信息中的语音信息，可以使用语音语义识别技术将语音信息转化为文字信息，并提取特征信息。

作为一种示例，上述可能的实现方式可以由图1中的语音语义识别模块120实现。

在一种可能的实现方式中，在虚拟数字人与目标用户的访谈过程中，实时获取目标用户的视频信息，根据获取的目标用户的视频信息，判断目标用户是否位于预设范围内，若目标用户没有位于预设范围内，则终止输出目标虚拟视频。

作为一种示例，获取目标用户的视频信息中的每一帧图像，对每一帧图像进行检测，若没有出现目标用户的图像的个数超过预设数量，则确定目标用户没有位于预设范围内。

作为另一种示例，根据预设周期定时获取目标用户的视频信息中的图像，若没有出现目标用户的图像的数量超过预设数量，则确定目标用户没有位于预设范围内。

示例性的，预设范围可以为用户设备的摄像头的可见范围。

作为一种示例，上述可能的实现方式可以由图1中的在框检测模块113实现。

S203，根据目标用户的特征信息，生成虚拟数字人的初始虚拟视频。

在一种可能的实现方式中，初始虚拟视频包括语音信息和动画信息，其中，动画信息包括虚拟数字人的面部表情和口型等。

作为一种示例，根据提取的特征信息，生成访谈文字信息，采用深度神经网络模型将访谈文字信息转化为语音信息，提取访谈文字信息中的关键字，根据提取的关键字和预设的关键字与面部表情的对应关系，生成虚拟数字人的面部表情，根据虚拟数字人的语音信息，生成虚拟数字人的口型动作。

上述示例可以由图1中的虚拟视频生成模块140实现。

S204，根据访谈决策模型对初始虚拟视频进行调整，得到目标虚拟视频。

在一种可能的实现方式中，访谈决策模型包括用户的状态信息与离线视频的映射关系，获取目标用户的状态信息，目标用户的状态信息可以包括目标用户的表情和动作等，根据目标用户的状态信息和访谈决策模型中的用户的状态信息与离线视频的映射关系，确定目标离线视频，并输出目标离线视频。

作为一种示例，访谈决策模型可以为访谈决策图。

作为一种示例，上述可能的实现方式可以由图1中的智能访谈管理模块150实现。

S205，输出目标虚拟视频。

本申请提供的技术方案，根据获取的目标用户的输入信息，提取目标用户的特征信息，再根据目标用户的特征信息，生成虚拟数字人的初始虚拟视频，使用访谈决策模型对初始虚拟视频进行调整，得到目标虚拟视频并输出，提高了用户与虚拟数字人交互的灵活性，提升了用户与虚拟数字人的交互体验。

图3为本申请一个实施例的一种基于虚拟数字人的访谈业务处理方法的流程示意图。如图3所示，该方法至少包括S301至S306。图3所示的基于虚拟数字人的访谈业务处理方法可以由图1中的基于虚拟数字人的访谈业务处理系统100实现。

S301，获取目标用户的输入信息，输入信息包括所述目标用户的视频信息、语音信息和文本信息。

S302，根据目标用户的输入信息，提取目标用户的特征信息。

需要说明的是，S301至S302可以参考S201至S202，此处不再进行赘述。

S303，获取目标用户的状态信息。

在一种可能的实现方式中，在虚拟数字人与目标用户进行访谈的过程中，实时获取目标用户的状态信息，目标用户的状态信息包括目标用户的表情和动作等。

在另一种可能的实现方式中，在虚拟数字人与目标用户进行访谈的过程中，还可以获取环境信息，例如环境安静度等。

S304，根据目标用户的特征信息，查找是否存在与该特征信息关联的离线视频。

在一种可能的实现方式中，访谈决策模型中存储有用户的特征信息与离线视频的映射关系，根据提取的目标用户的特征信息和访谈决策模型中存储的用户的特征信息与离线视频的映射关系，在离线视频库中查找是否存在与该特征信息关联的离线视频。

作为一种示例，访谈决策模型可以为访谈决策图。

作为一种示例，S304可以由图1中的智能访谈管理模块150实现，离线视频库的一种示例可以为离线视频库152。

S305，若存在与该特征信息关联的离线视频信息，则将该特征信息关联的离线视频作为目标虚拟视频；若不存在与该特征信息关联的离线视频信息，则根据目标用户的特征信息，生成虚拟数字人的目标虚拟视频。

在一种可能的实现方式中，目标虚拟视频包括虚拟数字人的语音信息和动画信息，其中，动画信息包括虚拟数字人的面部表情和口型等。

作为一种示例，根据提取目标用户的特征信息，生成访谈文字信息，采用深度神经网络模型将访谈文字信息转化为虚拟数字人的语音信息，提取访谈文字信息中的关键字，根据提取的关键字和预设的关键字与面部表情的对应关系，生成虚拟数字人的面部表情，根据虚拟数字人的语音信息，生成虚拟数字人的口型动作。

上述示例可以由图1中的虚拟视频生成模块140实现。

S306，输出目标虚拟视频。

在一种可能的实现方式中，访谈决策模型包括用户的状态信息与离线视频的映射关系，根据目标用户的状态信息和访谈决策模型中的用户的状态信息与离线视频的映射关系，确定目标离线视频，并输出目标离线视频。

在一种可能的实现方式中，在虚拟数字人与目标用户进行访谈的过程中，使用访谈决策图模型对访谈过程进行记录，当由于用户设备自身的原因导致了访谈中断，重新开始访谈时，可以根据记录的访谈过程从上次中断的状态继续访谈。同时，根据动态提取的客户特征信息和访谈记录，虚拟数字人会做出相应的反应。

作为一种示例，上述可能的实现方式可以由图1中的特殊处理及优化模块153实现。

本申请提供的技术方案，实现了实时的用户在框检测，为特定业务要求提供了支持；利用多种感知识别技术提取用户图像、语音、文本信息中的重要特征，融合多维度的信息，提升和优化了用户与虚拟数字人的交互方式；同时采用实时和离线两种方式进行访谈，有效提高了虚拟数字人的并发用户数；通过决策图结构自动采样重建整个访谈过程，并记录和分发用户访谈轨迹用于断点续访。

图4为本申请一个实施例提供的基于虚拟数字人的访谈业务处理装置的结构示意图。图4所示的装置400可以用于执行前述任意一个实施例所述的方法。

如图4所示，本实施例的装置400包括：存储器401、处理器402、通信接口403以及总线404。其中，存储器401、处理器402、通信接口403通过总线404实现彼此之间的通信连接。

存储器401可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器401可以存储程序，当存储器401中存储的程序被处理器402执行时，处理器402可以用于执行图2或图3所示的方法的各个步骤。

处理器402可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，或者一个或多个集成电路，用于执行相关程序，以实现本申请方法实施例的基于虚拟数字人的访谈业务处理方法。

处理器402还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请各个实施例的方法的各个步骤可以通过处理器402中的硬件的集成逻辑电路或者软件形式的指令完成。

上述处理器402还可以是通用处理器、数字信号处理器(digital signalprocessing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gatearray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器401，处理器402读取存储器401中的信息，结合其硬件完成本申请实施例中各个方法所需执行的功能，例如，可以执行图2或图3所示实施例的各个步骤/功能。

通信接口403可以使用但不限于收发器一类的收发装置，来实现装置400与其他设备或通信网络之间的通信。

总线404可以包括在装置400各个部件(例如，存储器401、处理器402、通信接口403)之间传送信息的通路。

应理解，本申请实施例所示的装置400可以是电子设备，或者，也可以是配置于电子设备中的芯片。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质。半导体介质可以是固态硬盘。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A,B可以是单数或者复数。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系，但也可能表示的是一种“和/或”的关系，具体可参考前后文进行理解。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a,b,或c中的至少一项(个)，可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于虚拟数字人的访谈业务处理方法，其特征在于，所述方法包括：

获取目标用户的输入信息，所述输入信息包括所述目标用户的视频信息、语音信息和文本信息；

根据所述输入信息，提取所述目标用户的特征信息；

根据所述特征信息，生成所述虚拟数字人的初始虚拟视频；

根据访谈决策模型对所述初始虚拟视频进行调整，得到目标虚拟视频；

输出所述目标虚拟视频。

2.根据权利要求1所述的方法，其特征在于，所述访谈决策模型包括用户的状态信息与离线视频的映射关系；

相应地，所述方法还包括：

获取所述目标用户的状态信息；

根据所述状态信息和所述访谈决策模型中的用户的状态信息与离线视频的映射关系，确定目标离线视频；

输出所述目标离线视频。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述目标用户的视频信息，判断所述目标用户是否位于预设范围内；

若所述目标用户没有位于所述预设范围内，则终止输出所述目标虚拟视频。

4.根据权利要求3所述的方法，其特征在于，所述根据所述目标用户的视频信息，判断所述目标用户是否位于预设范围内，包括：

获取所述目标用户的视频信息中的每一帧图像；

对所述每一帧图像进行检测，若没有出现所述目标用户的图像的个数超过预设数量，则确定所述目标用户没有位于所述预设范围内。

5.根据权利要求3所述的方法，其特征在于，所述根据所述目标用户的视频信息，判断所述目标用户是否位于预设范围内，包括：

根据预设周期定时获取所述目标用户的视频信息中的图像，若没有出现所述目标用户的图像的数量超过预设数量，则确定所述目标用户没有位于所述预设范围内。

6.根据权利要求1所述的方法，其特征在于，所述初始虚拟视频包括所述虚拟数字人的语音信息和动画信息，所述动画信息包括所述虚拟数字人的面部表情和口型；

相应地，所述根据所述特征信息，生成所述虚拟数字人的初始虚拟视频，包括：

根据所述特征信息，生成访谈文字信息；

将所述访谈文字信息转化为所述虚拟数字人的语音信息；

提取所述访谈文字信息中的关键字；

根据所述关键字和预设的关键字与面部表情的对应关系，生成所述虚拟数字人的面部表情；

根据所述虚拟数字人的语音信息，生成所述虚拟数字人的口型。

7.一种基于虚拟数字人的访谈业务处理装置，其特征在于，所述装置用于实现权利要求1至6中任一项所述的方法。

8.一种基于虚拟数字人的访谈业务处理装置，其特征在于，包括：存储器和处理器；

所述存储器用于存储程序指令；

所述处理器用于调用所述存储器中的程序指令执行如权利要求1至6中任一项所述的方法。

9.一种芯片，其特征在于，包括至少一个处理器和通信接口，所述通信接口和所述至少一个处理器通过线路互联，所述至少一个处理器用于运行计算机程序或指令，以执行如权利要求1至6中任一项所述的方法。

10.一种计算机可读介质，其特征在于，所述计算机可读介质存储用于计算机执行的程序代码，该程序代码包括用于执行如权利要求1至6中任一项所述的方法。

11.一种计算机程序产品，其特征在于，所述计算机程序产品包括指令，当所述指令被执行时，使得计算机执行权利要求1至6中任一项所述的方法。