CN113590078A

CN113590078A - 虚拟形象合成方法、装置、计算设备及存储介质

Info

Publication number: CN113590078A
Application number: CN202110875935.4A
Authority: CN
Inventors: 梁亚妮; 欧光礼; 陈闽; 满园园
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2021-11-02

Abstract

本发明涉及人工智能技术领域，尤其涉及一种虚拟形象合成方法、装置、设备及存储介质。该虚拟形象合成方法包括获取业务人员的多模态输入数据；将个人信息、业务人员的人体图像以及历史服务音视频输入至预先构建好的多模态虚拟形象生成网络中进行多模态识别，以输出业务人员的基础虚拟形象；若当前对话场景为离线场景，则基于所述基础虚拟形象，调用智能对话模块进行初始服务，并实时接收对话数据；通过多模态虚拟形象生成网络基于所述对话数据，识别当前时刻的对话阶段，以输出对话阶段对应的交互特征；基于所述交互特征以及所述基础虚拟形象，合成当前时刻的虚拟形象视频帧。该方法可无需业务人员实时在线即可通过虚拟形象对客户进行服务。

Description

虚拟形象合成方法、装置、计算设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种虚拟形象合成方法、装置、计算设备及存储介质。

背景技术

随着信息时代的飞速发展，大多企业或机构为提升服务质量以及客户体验，一般采用虚拟形象进行服务，但目前的虚拟形象一般是显示一设定好的固定形象，在即时通信服务中，缺乏虚拟形象与用户之间的互动性。

当前，为解决上述问题，通过结合业务人员在实际在线服务视频中的表情、动作等生物特征，以实时动态输出代理人的虚拟视频，但该种解决方案仍然需要依赖业务人员的实时在线方可实现，使得当前虚拟形象的合成具有局限性。

发明内容

本发明实施例提供一种虚拟形象合成方法、装置、计算设备及存储介质，以解决当前当前虚拟形象的动态合成需要业务人员实时在线的局限性问题。

一种虚拟形象合成方法，包括：

获取业务人员的多模态输入数据；其中，所述多模态输入数据包括个人信息、人体图像以及历史服务音视频；

将所述个人信息、业务人员的人体图像以及历史服务音视频输入至预先构建好的多模态虚拟形象生成网络中进行多模态识别，以输出所述业务人员的基础虚拟形象；

若当前对话场景为离线场景，则基于所述基础虚拟形象，调用智能对话模块进行初始服务，并实时接收对话数据；

通过所述多模态虚拟形象生成网络基于所述对话数据，识别当前时刻的对话阶段，以输出所述对话阶段对应的交互特征；

基于所述交互特征以及所述基础虚拟形象，合成当前时刻的虚拟形象视频帧。

一种虚拟形象合成装置，包括：

多模态输入获取模块，用于获取业务人员的多模态输入数据；其中，所述多模态输入数据包括个人信息、人体图像以及历史服务音视频；

基础虚拟形象合成模块，用于将所述个人信息、业务人员的人体图像以及历史服务音视频输入至预先构建好的多模态虚拟形象生成网络中进行多模态识别，以输出所述业务人员的基础虚拟形象；

智能对话模块，用于若当前对话场景为离线场景，则基于所述基础虚拟形象，调用智能对话模块进行初始服务，并实时接收对话数据；

交互特征输出模块，用于通过所述多模态虚拟形象生成网络基于所述对话数据，识别当前时刻的对话阶段，以输出所述对话阶段对应的交互特征；

动态虚拟形象合成模块，用于基于所述交互特征以及所述基础虚拟形象，合成当前时刻的虚拟形象视频帧。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述虚拟形象合成方法的步骤。

一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述虚拟形象合成方法的步骤。

上述虚拟形象合成方法、装置、计算设备及存储介质中，通过提取不同业务人员的多模态输入，以通过预先构建好的多模态虚拟形象生成网络中进行多模态识别，输出所述业务人员的基础虚拟形象，实现个性化的虚拟形象输出；然后，通过在当前对话场景为离线场景，则基于所述基础虚拟形象，调用智能对话模块进行初始服务，并实时接收对话数据，从而通过所述多模态虚拟形象生成网络根据是实际接收的对话数据，识别当前时刻的对话阶段，从而自动生成在所述对话阶段下的所述基础虚拟形象的交互特征，无需业务人员实时在线即可通过虚拟形象对客户进行服务；最后，基于所述交互特征以及所述基础虚拟形象，合成当前时刻的虚拟形象视频帧，增强虚拟形象与客户之间的互动性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中虚拟形象合成方法的一应用环境示意图；

图2是本发明一实施例中虚拟形象合成方法的一流程图；

图3是图2中步骤S202的一具体流程图；

图4是图2中步骤S204的一具体流程图；

图5是图4中步骤S402的一具体流程图；

图6是本发明一实施例中虚拟形象合成方法的一流程图；

图7是本发明一实施例中虚拟形象合成方法的一流程图；

图8是本发明一实施例中虚拟形象合成装置的一示意图；

图9是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

该虚拟形象合成方法可应用在如图1的应用环境中，其中，计算机设备通过网络与服务器进行通信。计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器来实现。

在一实施例中，如图2所示，提供一种虚拟形象合成方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S201：获取业务人员的多模态输入数据；其中，多模态输入数据包括个人信息、人体图像以及历史服务音视频。

其中，个人信息包括但不限于业务人员的年龄、性别、职级等。人体图像即指业务人员的全身图，该历史服务音视频包括业务人员历史服务的视频以及对应的音频。可以理解地，同一业务人员的动态虚拟形象的表达需要通过多模态的特征进行描述或表达，可保证虚拟形象输出的准确性。

S202：将个人信息、业务人员的人体图像以及历史服务音视频输入至预先构建好的多模态虚拟形象生成网络中进行多模态识别，以输出业务人员的基础虚拟形象。

其中，多模态虚拟形象生成网络即为通过针对多个业务人员对应的多模态数据进行无监督学习构建得到的多模态知识图谱。多模态知识图谱包括虚拟人实体节点、服务主题实体节点以及实体之间的链接关系，其中，虚拟人实体链接有个人信息特征、动作特征以及表情特征。服务主题实体链接有在服务过程中不同时刻的动作特征、表情特征、回复内容、语调特征以及情绪特征，同时语调特征链接有口型特征。可以理解地是，在多模态虚拟形象生成网络中，针对语调、情绪等可根据对应的分类标签进行表达，例如语调包括升调、降调、平调或曲调等等，情绪特征包括愉悦、愤怒、悲伤等等。在服务过程中，该情绪特征会随着客户的情绪变化而变化。

具体地，通过将个人信息、业务人员的人体图像以及历史服务音视频输入至预先构建好的多模态虚拟形象生成网络的生成式网络中，以通过根据多模态的输入数据在多模态虚拟形象生成网络中，根据图中实体节点之间的链接关系，即可生成业务人员的基础虚拟形象。

S203：若当前对话场景为离线场景，则基于基础虚拟形象，调用智能对话模块进行初始服务，并实时接收对话数据。

具体地，由于当前生成的虚拟形象为静态形象，在进行服务时可根据实际沟通链接服务主题实体生成不同服务阶段在不同时刻的交互特征。而在初始服务时，由于当前对话场景为离线场景，故需要调用智能对话模块对客户进行初始服务，以实时接收对话数据，以根据该实际沟通的对话数据识别服务阶段(即对话阶段)，从而生成不同对话阶段在不同时刻的交互特征，增强虚拟形象与客户之间的互动性。同时，由于虚拟形象以及服务过程中的交互特征可线下生成，故无需业务人员实时在线即可通过虚拟形象对客户进行服务。

进一步地，若当前对话场景为在线场景，则基于基础虚拟形象初始服务，并实时接收业务人员的语音数据；然后通过现有开源的模型提取当前时刻业务人员的交互特征，如表情特征、肢体动作特征、回复内容特征、情绪特征、语调特征以及口型特征，并基于该基于交互特征以及基础虚拟形象，合成当前时刻的虚拟形象视频帧，即当前对话场景为在线场景时，通过业务人员的真实反馈合成虚拟形象。

S204：通过多模态虚拟形象生成网络基于对话数据，识别当前时刻的对话阶段，以输出对话阶段对应的交互特征。

其中，交互特征包括但不限于表情特征、肢体动作特征、回复内容特征情绪特征、语调特征以及口型特征。对话阶段包括但不限于暖场寒暄、讲公司、讲行业、讲自己、需求分析、方案沟通或异议处理等。

具体地，可通过对对话数据进行过滤，以过滤掉标点符号和特殊字符等，得到有效字符串；然后将有效字符串输入至预先构建好的多模式匹配树中进行多模式匹配，以确定当前时刻的对话阶段；最后，通过多模态虚拟形象生成网络基于对话阶段，生成当前时刻对话阶段下的交互特征。

S205：基于交互特征以及基础虚拟形象，合成当前时刻的虚拟形象视频帧。

具体地，通过将当前时刻的交互特征映射至该基础虚拟形象，以合成当前时刻的虚拟形象视频帧，进而随着服务过程的不断推进，动态合成下一时刻的虚拟形象视频帧，直至服务结束，输出虚拟形象服务视频流。

本实施例中，通过提取不同业务人员的多模态输入，以通过预先构建好的多模态虚拟形象生成网络中进行多模态识别，输出业务人员的基础虚拟形象，实现个性化的虚拟形象输出；然后，通过在当前对话场景为离线场景，则基于基础虚拟形象，调用智能对话模块进行初始服务，并实时接收对话数据，从而通过多模态虚拟形象生成网络根据是实际接收的对话数据，识别当前时刻的对话阶段，从而自动生成在对话阶段下的基础虚拟形象的交互特征，无需业务人员实时在线即可通过虚拟形象对客户进行服务；最后，基于交互特征以及基础虚拟形象，合成当前时刻的虚拟形象视频帧，增强虚拟形象与客户之间的互动性。

在一实施例中，如图3所示，步骤S202中，即将个人信息、业务人员的人体图像以及历史服务音视频输入至预先构建好的多模态虚拟形象生成网络中进行多模态识别，以输出业务人员的基础虚拟形象，具体包括如下步骤：

S301：获取业务人员的个人信息在多模态虚拟形象生成网络中的全局编码。

具体地，在构建多模态虚拟形象生成网络时，针对不同的个人信息均对应一全局编码标识(embedding)，以在多模态虚拟形象生成网络中用于描述不同的个人信息。针对不同个人信息的编码标识，可以根据预设规则进行编码，例如女-000，男-001。

S302：采用第一特征点定位模型识别人体图像对应的第一模态特征。

其中，第一特征点定位模型可为MTCNN特征点定位模型，该MTCNN特征点定位模型用于对人体图像中的人脸关键点以及肢体关键点进行定位，以得到第一模态特征，该第一模态特征包括第一人脸特征以及第一肢体特征。

具体地，MTCNN由三个级联网络组成，即P-net、R-Net以及O-net，是一个逐步查找定位的过程，首先输入的人体图像经过resize处理得到不同大小的图像，组成图像金字塔；然后将图像金字塔通过一个浅层的P-net网络，以快速筛选出多个人脸潜在候选框，并通过NMS非极大值抑制方法去除冗余的候选框，再将剩余的候选框经过R-Net，以得到可能性最大的人脸框位置；最后，通过O-net神经网络定位输出嘴部的定位坐标，从而根据该嘴部的定位坐标，返回该帧图像对应的口型图像，并缩放为固定大小(n*n)的矩阵。可以理解地是，针对P-net、R-Net以及O-net的网络结构以及处理过程与传统MTCNN网络一致，此处不再赘述。

S303：采用第二特征点定位模型，识别历史服务视频对应的第二模态特征。

其中，第二特征点定位模型可采用Lanmarks特征点定位模型，该Lanmarks特征点定位模型用于对历史服务视频的人脸关键点以及肢体关键点进行检测，以得到第一模态特征，该第一模态特征包括在不同时刻业务人员与客户沟通的第一人脸特征以及第一肢体特征。此时，该第一人脸特征以及第一肢体特征具备时序性，即表达业务人员在服务过程中，在不同时刻的表情、动作、情绪以及口型等。

可以理解地是，通过采用不同的定位模型以从不同模态定位对应业务人员的人脸特征以及肢体特征，可提高虚拟形象的表达能力，从而提升虚拟形象合成的准确率。

S304：采用语调识别模型，识别历史服务音频对应的第三模态特征。

具体地，通过语调识别模型提取历史服务音频中业务人员的声纹特征，并针对该声纹体征进行语调分类，得到语调分类标签，即作为第三模态特征。

S305：通过多模态虚拟形象生成网络基于全局编码、第一模态特征、第二模态特征以及第三模态特征进行预测，输出业务人员的基础虚拟形象。

具体地，通过将该全局编码、第一模态特征、第二模态特征以及第三模态特征输入至多模态虚拟形象生成网络中，以多模态虚拟形象生成网络中根据全局编码、第一模态特征、第二模态特征以及第三模态特征，即可生成业务人员的基础虚拟形象，该基础虚拟形象通过人脸特征、人体特征以及语调特征描述。

在一实施例中，如图4所示，步骤S204中，即通过多模态虚拟形象生成网络基于对话数据，识别当前时刻的对话阶段，以输出对话阶段对应的交互特征，具体包括如下步骤：

S401：对对话数据进行过滤，得到有效字符串。

具体地，可次采用正则表达式对。其中，有效字符串是指采用正则表达式匹配算法对原始字符串进行匹配处理后获取的不包含特殊字符(如：空格)和/或标点符号的字符串。本实施例中，可采用正则表达式(如：^[\u4e00-\u9fa5_a-zA-Z0-9]+$)匹配对话数据，以获取不包含特殊字符和/或标点符号的有效字符串，过滤掉特殊字符和/或标点符号等干扰因素，增加后续多模式匹配的效率。

S402：将有效字符串输入至预先构建好的多模式匹配树中进行多模式匹配，确定当前时刻的对话阶段。

其中，成功指针是指预先采用目前开源的命名实体识别模型识别历史服务视频中的服务实体词构建的成功路径的指针。失败指针是指在若成功指针的指向与待匹配字符不匹配的情况下所构建的失败路径的指针。根节点是不包含字符的节点。

多模式匹配树即指Trie树，单词查找树或者前缀树，是一种用于快速检索的多叉树结构，如英文字母的字典树是一个26叉树，数字的字典树是一个10叉树。具体地，可采用多模式匹配算法基于多模式匹配树对有效字符串中的对话主题词进行匹配。其中，多模式匹配算法包括但不限于采用AC(Aho-Corasick，多模式匹配算法)算法。AC(Aho-Corasick)算法是一种字典匹配算法，它用于在输入文本中查找字典中的字符串，该算法应用有限自动机巧妙地将字符比较转化为了状态转移，时间复杂度是线性的，算法效率快。

S403：通过多模态虚拟形象生成网络基于对话阶段，输出当前时刻对话阶段对应的交互特征。

具体地，通过将该对话阶段输入至多模态虚拟形象生成网络中，通过匹配服务主题实体对应的对话阶段，进而得到服务主题实体链接的交互特征，从而生成当前时刻对话阶段下的交互特征。

在一实施例中，如图5所示，步骤S402中，即将有效字符串输入至预先构建好的多模式匹配树中进行多模式匹配，确定当前时刻的对话阶段，具体包括如下步骤：

S501：遍历有效字符串，并基于多模式匹配树，依序对有效字符串中的待匹配字符进行关键字匹配。

S502：若上一时刻多模式匹配树中存在匹配成功的第一匹配字符，则将第一匹配字符作为当前时刻的匹配起始节点。

S503：按照成功指针的路径，将成功指针指向下一节点对应的特定字符；其中，下一节点为成功指针路径中与匹配起始节点相邻下一个或多个节点。

其中，第一匹配字符为上一时刻在多模式匹配树中匹配成功的待匹配字符，作为当前时刻的匹配的起始节点，即当前时刻的匹配起始节点。特定字符是多模式匹配树中以第一匹配字符为当前时刻的匹配起始节点，按照成功指针指向的与匹配起始节点相邻的下一个或多个节点。成功指针的路径是指成功指针的指针指向路径。具体地，服务器先依照待匹配字符的顺序标签的顺序先读取有效字符串中的待匹配字符，然后在多模式匹配树中进行查找；若多模式匹配树中存在待匹配字符，匹配成功，则将该待匹配字符作为第一匹配字符，以该第一匹配字符作为当前时刻的匹配起始节点，按照多模式匹配树中的路径，将成功指针指向下一节点对应的特定字符；若不存在，则读取有效字符串中第一匹配字符的下一字符进行匹配。

S504：若特定字符与第二匹配字符匹配，则将第二匹配字符作为当前时刻的匹配起始节点；其中，第二匹配字符指待匹配字符中第一匹配字符的下一顺序字符。

S505：重复执行按照多模式匹配树中成功指针的路径，将成功指针指向下一节点对应的特定字符的步骤，直至成功指针指向目标终止节点且终止节点对应的失败指针指向根节点，获取目标终止节点。

示例性地，例如有效字符串为sher，假设上一时刻匹配成功的待匹配字符(即“s”)在多模式匹配树中存在，则将待匹配字符“s”作为第一匹配字符，并以该第一匹配字符作为当前时刻的匹配起始节点，按照多模式匹配树中的成功指针的路径，将成功指针指向下一节点对应的特定字符(如“a”和“h”)，第二匹配字符即为第一匹配字符的下一顺序字符“h”，该第二匹配字符与特定字符“h”匹配，则将第二匹配字符作为当前时刻的匹配起始节点，重复执行步骤S502-S504，继续上述过程，直至目标终止节点的失败指针指向根节点。

S506：基于根节点和目标终止节点按照成功指针的路径进行遍历，确定对话主题词对应的对话阶段。

具体地，以本方法应用在医疗保险领域为例，在采用虚拟形象与客户进行沟通互动的过程中，可包括不同的对话阶段，例如暖场寒暄、讲公司、讲行业、讲自己、需求分析、方案沟通、异议处理等。其中，不同的对话阶段均对应不同的用于识别对话阶段的对话主题词，例如当对话阶段为需求分析阶段时，其对应的对话主题词包括但不限于生病、房贷、支出或医疗费等关键词。

示例性地，为便于理解，此处以步骤S505示例，对步骤S501-S506的执行过程进行说明。服务器通过读取第一匹配字符的下一顺序字符，即下一顺序标签对应的第二匹配字符(即“h”)，并将该第二匹配字符“h”与步骤S502获取的特定字符进行匹配，假设此时特定字符为“a”，可知，该待匹配字符“h”与特定字符“a”不匹配，则重复执行步骤S501-S506，以读取下一待匹配字符“e”，并执行步骤S502-S506，直至检测到有效字符串中最后一个待匹配字符，停止匹配。

进一步地，假设此时特定字符为“a”和“h”，可知，该待匹配字符“h”与特定字符“h”匹配，则将该第二匹配字符作为当前时刻的匹配起始节点；重复执行S502-S504，将特定字符与有效字符串中的下一顺序标签对应的待匹配字符进行匹配，即将特定字符串“e”和“r”与下一顺序标签对应的待匹配字符“e”进行匹配，可知，该待匹配字符“e”与特定字符“e”匹配，假设“e”为终止节点，则将root节点到终止节点所得到的单词记录下来作为对话主题词即“she”，由于此时“e”为终止节点，因此按照失败路径，该终止节点“e”的失败指针的指向，定位到失败字符节点“e”，并根据成功路径将失败字符节点“e”的下一节点“r”作为特定字符与有效字符串中的第四顺序标签对应的待匹配字符“r”进行匹配，假设“r”为目标终止节点，则获取对话主题词“sher”，并根据失败指针的指向继续执行，假设该目标终止节点“r”的失败指针指向root节点(即根节点)，此时终止循环。可以理解地是，在循环中每一次指针在指向终止节点时，会将root节点到终止节点所得到的单词记录下来作为对话主题词。

在一实施例中，如图6所示，步骤S205之后，该方法还包括如下步骤：

S601：按照预设的多个评价因子对每一实际服务音视频的服务效果进行评价，获取每一评价因子对应的评分值。

其中，评价因子即指决定服务效果的评价因子包括但不限于沟通质量、重复对话、无效对话、整段对话中不同情绪占比以及服务成交率等。客户情绪包括但不限于愉悦、不高兴和愤怒。客户情绪可以通过客户的语音特征以及客户的微表情描述，最终客户在不同时刻的情绪特征可综合语音特征以及微表情进行描述，例如通过设定这两种维度特征的预设权重进行加权计算确定，或者通过机器学习或深度学习生成多模态情绪识别的模型识别，此处不做限定。

具体地，可通过预先对不同的评价因子设置对应的评分规则，以获取每一评价因子对应的评分值，此处不做限定。例如针对重复对话这一评价因子，可预先设置多个级别(例如二级)的评分值，每一级别对应一评价标准，当重复对话的数量达到一级标准时，对应一级标准的评分值；当重复对话的数量达到二级标准时，对应一级标准的评分值。

S602：根据每一评价因子对应的评分值，构建对应的服务行为画像。

其中，服务行为画像为N行M列矩阵；N表示实际服务音视频的数量；M表示评价因子的数量。

S603：基于每一评价因子对应的评分值，计算服务行为画像对应的协方差矩阵。

具体地，可采用如下公式计算协方差矩阵，

其中，a_k表示第K列评价因子列；M为评价因子的数量，如沟通质量，重复对话、无效对话、不同情绪占比或服务后成交率；u表示与a_k对应的评价因子列的评分均值。C表示协方差矩阵，X表示服务行为画像(N行M列矩阵)，N表示实际服务音视频的数量，该实际服务音视频可通过定时任务采集一段时间内的实际服务样本，此处不做限定。

可以理解地是，上述公式中，通过公式将

矩阵X转换为零均值矩阵，然后基于零均值矩阵及其矩阵转置计算对应的协方差矩阵。

S604：对协方差矩阵进行分解，得到特征值以及对应的特征向量。

具体地，可通过对协方差矩阵进行SVD奇异值分解。奇异值分解(Singular ValueDecomposition，简称SVD分解)是线性代数中一种重要的矩阵分解，该奇异值分解运算处理能够有效对大批量数据进行降维，以减少运算量，节省运算时间。具体地，服务器对协方差矩阵进行奇异值分解会得到两个酉矩阵和一个半正定对角矩阵，半正定对角矩阵对角线上的值即为奇异值(即特征值)，奇异值一般含有N(N大于2)个，按奇异值从大到小的顺序排列。奇异值可表征矩阵中隐含的重要信息，且重要性和奇异值大小正相关。可以理解地，奇异值越大，则该奇异值包含的有效信息量越大；反之，奇异值越小，则该奇异值包含的有效信息量越少，认定包含越多的噪声。服务器通过对协方差矩阵进行奇异值分解，获取特征值以及对应的特征向量，能够直观的观察出特征值中所包含的有效信息量的程度，便于对样本进行降噪处理。

S605：基于特征值，对多个实际服务音频进行过滤，得到增量样本，以根据增量样本更新多模态虚拟形象生成网络。

其中，将特征向量按照特征值从大到小，从上到下按行排列成矩阵，将特征值排在前N位或大于预设阈值的特征向量保留，以过滤掉包括有效信息较少的负样本也即服务效果不好的实际服务音视频，得到增量样本，便于根据增量样本更新多模态虚拟形象生成网络。

可以理解地是，该增量样本中仅包含服务效果好的正样本，根据该正样本中的历史服务音视频以及对话数据对多模态虚拟形象生成网络进行更新，以保证后续多模态虚拟形象生成网络在服务沟通阶段输出对话内容以及对应情绪的有效学习。具体地，可采用TransE算法对多模态虚拟形象生成网络进行增量特征学习，此处不做限定。

在一实施例中，如图7所示，步骤S205之后，该方法还包括如下步骤：

S701：获取业务人员对基础虚拟形象的满意度。

S702：将满意度达到预设阈值的基础虚拟形象，作为训练虚拟形象；并将训练虚拟形象以及与训练虚拟形象对应的业务人员的多模态输入数据，作为训练样本，以对多模态虚拟形象生成网络进行监督学习，更新多模态虚拟形象生成网络。

其中，由于多模态虚拟形象生成网络是通过无监督学习训练得到，其生成的多模态虚拟形象生成网络为粗粒度的，故需要通过后续实际业务人员的满意度评价，去决定该多模态虚拟形象生成网络的准确度，故本案中通过将述满意度达到预设阈值的基础虚拟形象(即作为真实标注)作为训练虚拟形象，并将该训练虚拟形象以及与训练虚拟形象对应的对应的业务人员的多模态输入数据作为训练样本，以对所述多模态虚拟形象生成网络进行监督学习，从而更新所述多模态虚拟形象生成网络。具体地，可采用TransE算法对多模态虚拟形象生成网络进行监督学习，此处不做限定。

进一步地，当获取到增量样本时，例如S605或S702中获取到的增量样本进行图谱更新时，可在原有的多模态虚拟形象生成网络基础上进行更新，或者在这两种维度获取的增量样本取交集，得到更新后的增量样本并基于深度学习网络或机器学习进行端到端的回归学习，此处不做限定。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种虚拟形象合成装置，该虚拟形象合成装置与上述实施例中虚拟形象合成方法一一对应。如图8所示，该虚拟形象合成装置包括多模态输入获取模块10、基础虚拟形象合成模块20、智能对话模块30、交互特征输出模块40以及动态虚拟形象合成模块50。各功能模块详细说明如下：

多模态输入获取模块10，用于获取业务人员的多模态输入数据；其中，所述多模态输入数据包括个人信息、人体图像以及历史服务音视频；

基础虚拟形象合成模块20，用于将所述个人信息、业务人员的人体图像以及历史服务音视频输入至预先构建好的多模态虚拟形象生成网络中进行多模态识别，以输出所述业务人员的基础虚拟形象；

智能对话模块30，用于若当前对话场景为离线场景，则基于所述基础虚拟形象，调用智能对话模块进行初始服务，并实时接收对话数据；

交互特征输出模块40，用于通过所述多模态虚拟形象生成网络基于所述对话数据，识别当前时刻的对话阶段，以输出所述对话阶段对应的交互特征；

动态虚拟形象合成模块50，用于基于所述交互特征以及所述基础虚拟形象，合成当前时刻的虚拟形象视频帧。

具体地，基础虚拟形象合成模块包括全局编码单元、第一模态提取单元、第二模态提取单元、第三模态提取单元以及基础虚拟形象合成单元。

全局编码单元，用于获取所述业务人员的个人信息在所述多模态虚拟形象生成网络中的全局编码；

第一模态提取单元，用于采用第一特征点定位模型识别所述人体图像对应的第一模态特征；

第二模态提取单元，用于采用第二特征点定位模型，识别所述历史服务视频对应的第二模态特征；

第三模态提取单元，用于采用语调识别模型，识别所述历史服务音频对应的第三模态特征；

基础虚拟形象合成单元，用于通过所述多模态虚拟形象生成网络基于所述全局编码、所述第一模态特征、所述第二模态特征以及所述第三模态特征进行预测，输出所述业务人员的基础虚拟形象。

具体地，交互特征输出模块包括过滤单元、对话阶段确定单元以及交互特征输出单元。

过滤单元，用于对所述对话数据进行过滤，得到有效字符串；

对话阶段确定单元，用于将所述有效字符串输入至预先构建好的多模式匹配树中进行多模式匹配，确定当前时刻的对话阶段；

交互特征输出单元，用于通过所述多模态虚拟形象生成网络基于所述对话阶段，输出当前时刻所述对话阶段对应的交互特征。

具体地，所述多模式匹配树包括成功指针、失败指针和根节点；对话阶段确定单元包括关键字匹配子单元、匹配起始节点确定子单元、特定字符指向子单元、特定字符匹配子单元、循环匹配子单元以及对话阶段确定子单元。

关键字匹配子单元，用于遍历所述有效字符串，并基于所述多模式匹配树，依序对所述有效字符串中的待匹配字符进行关键字匹配；

匹配起始节点确定子单元，用于若上一时刻所述多模式匹配树中存在匹配成功的第一匹配字符，则将所述第一匹配字符作为当前时刻的匹配起始节点；

特定字符指向子单元，用于按照所述成功指针的路径，将成功指针指向下一节点对应的特定字符；其中，所述下一节点为所述成功指针路径中与所述匹配起始节点相邻的下一个或多个节点；

特定字符匹配子单元，用于若所述特定字符与第二匹配字符匹配，则将所述第二匹配字符作为当前时刻的匹配起始节点；其中，所述第二匹配字符指所述待匹配字符中所述第一匹配字符的下一顺序字符；

循环匹配子单元，用于重复执行按照所述多模式匹配树中成功指针的路径，将成功指针指向下一节点对应的特定字符的步骤，直至所述成功指针指向目标终止节点且所述终止节点对应的失败指针指向所述根节点，获取目标终止节点。

对话阶段确定子单元，用于基于根节点和目标终止节点按照所述成功指针的路径进行遍历，确定对话主题词对应的对话阶段。

具体地，该虚拟形象合成装置还包括评分模块、行为画像构建模块、协方差矩阵计算模块、矩阵分解模块以及网络优化模块。

评分模块，用于按照预设的多个评价因子对每一实际服务音视频的服务效果进行评价，获取每一所述评价因子对应的评分值；

行为画像构建模块，用于根据每一所述评价因子对应的评分值，构建对应的服务行为画像；

协方差矩阵计算模块，用于基于每一评价因子对应的评分值，计算所述服务行为画像对应的协方差矩阵；

矩阵分解模块，用于对所述协方差矩阵进行分解，得到特征值以及对应的特征向量；

网络优化模块，用于基于所述特征值，对多个所述实际服务音频进行过滤，得到增量样本，以根据所述增量样本更新所述多模态虚拟形象生成网络。

具体地，该虚拟形象合成装置还包括形象满意度获取模块和网络优化模块。

形象满意度获取模块，用于获取业务人员对所述基础虚拟形象的满意度；

网络优化模块，用于将所述满意度达到预设阈值的基础虚拟形象，作为训练虚拟形象；并将所述训练虚拟形象以及与所述训练虚拟形象对应的业务人员的多模态输入数据，作为训练样本，以对所述多模态虚拟形象生成网络进行监督学习，更新所述多模态虚拟形象生成网络。

关于虚拟形象合成装置的具体限定可以参见上文中对于虚拟形象合成方法的限定，在此不再赘述。上述虚拟形象合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机存储介质、内存储器。该计算机存储介质存储有操作系统、计算机程序和数据库。该内存储器为计算机存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行虚拟形象合成方法过程中生成或获取的数据，如多模态虚拟形象生成网络。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种虚拟形象合成方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的虚拟形象合成方法的步骤，例如图2所示的步骤S201-S205，或者图3至图7中所示的步骤。或者，处理器执行计算机程序时实现虚拟形象合成装置这一实施例中的各模块/单元的功能，例如图8所示的各模块/单元的功能，为避免重复，这里不再赘述。

在一实施例中，提供一计算机存储介质，该计算机存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中虚拟形象合成方法的步骤，例如图2所示的步骤S201-S205，或者图3至图7中所示的步骤，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现上述虚拟形象合成装置这一实施例中的各模块/单元的功能，例如图8所示的各模块/单元的功能，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种虚拟形象合成方法，其特征在于，包括：

2.如权利要求1所述虚拟形象合成方法，其特征在于，所述将所述个人信息、业务人员的人体图像以及历史服务音视频输入至预先构建好的多模态虚拟形象生成网络中进行多模态识别，以输出所述业务人员的基础虚拟形象，包括：

获取所述业务人员的个人信息在所述多模态虚拟形象生成网络中的全局编码；

采用第一特征点定位模型识别所述人体图像对应的第一模态特征；

采用第二特征点定位模型，识别所述历史服务视频对应的第二模态特征；

采用语调识别模型，识别所述历史服务音频对应的第三模态特征；

通过所述多模态虚拟形象生成网络基于所述全局编码、所述第一模态特征、所述第二模态特征以及所述第三模态特征进行预测，输出所述业务人员的基础虚拟形象。

3.如权利要求1所述虚拟形象合成方法，其特征在于，所述通过所述多模态虚拟形象生成网络基于所述对话数据，识别当前时刻的对话阶段，以输出所述对话阶段对应的交互特征，包括：

对所述对话数据进行过滤，得到有效字符串；

将所述有效字符串输入至预先构建好的多模式匹配树中进行多模式匹配，确定当前时刻的对话阶段；

通过所述多模态虚拟形象生成网络基于所述对话阶段，输出当前时刻所述对话阶段对应的交互特征。

4.如权利要求3所述虚拟形象合成方法，其特征在于，所述多模式匹配树包括成功指针、失败指针和根节点；所述将所述有效字符串输入至预先构建好的多模式匹配树中进行多模式匹配，确定当前时刻的对话阶段，包括：

遍历所述有效字符串，并基于所述多模式匹配树，依序对所述有效字符串中的待匹配字符进行关键字匹配；

若上一时刻所述多模式匹配树中存在匹配成功的第一匹配字符，则将所述第一匹配字符作为当前时刻的匹配起始节点；

按照所述成功指针的路径，将成功指针指向下一节点对应的特定字符；其中，所述下一节点为所述成功指针路径中与所述匹配起始节点相邻的下一个或多个节点；

若所述特定字符与第二匹配字符匹配，则将所述第二匹配字符作为当前时刻的匹配起始节点；其中，所述第二匹配字符指所述待匹配字符中所述第一匹配字符的下一顺序字符；

重复执行按照所述多模式匹配树中成功指针的路径，将成功指针指向下一节点对应的特定字符的步骤，直至所述成功指针指向目标终止节点且所述终止节点对应的失败指针指向所述根节点，获取目标终止节点；

基于根节点和目标终止节点按照所述成功指针的路径进行遍历，确定对话主题词对应的对话阶段。

5.如权利要求1所述虚拟形象合成方法，其特征在于，在所述基于所述交互特征以及所述基础虚拟形象，合成当前时刻的虚拟形象视频帧之后，还包括：

按照预设的多个评价因子对每一实际服务音视频的服务效果进行评价，获取每一所述评价因子对应的评分值；

根据每一所述评价因子对应的评分值，构建对应的服务行为画像；

基于每一评价因子对应的评分值，计算所述服务行为画像对应的协方差矩阵；

对所述协方差矩阵进行分解，得到特征值以及对应的特征向量；

基于所述特征值，对多个所述实际服务音频进行过滤，得到增量样本，以根据所述增量样本更新所述多模态虚拟形象生成网络。

6.如权利要求1所述虚拟形象合成方法，其特征在于，在所述基于所述交互特征以及所述基础虚拟形象，合成当前时刻的虚拟形象视频帧之后，所述虚拟形象合成方法还包括：

获取业务人员对所述基础虚拟形象的满意度；

将所述满意度达到预设阈值的基础虚拟形象，作为训练虚拟形象；并

将所述训练虚拟形象以及与所述训练虚拟形象对应的业务人员的多模态输入数据，作为训练样本，以对所述多模态虚拟形象生成网络进行监督学习，更新所述多模态虚拟形象生成网络。

7.一种虚拟形象合成装置，其特征在于，包括：

8.如权利要求7所述虚拟形象合成装置，其特征在于，所述基础虚拟形象合成模块包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述虚拟形象合成方法的步骤。

10.一种计算机存储介质，所述计算机存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述虚拟形象合成方法的步骤。