CN114121006A

CN114121006A - 虚拟角色的形象输出方法、装置、设备以及存储介质

Info

Publication number: CN114121006A
Application number: CN202111436710.5A
Authority: CN
Inventors: 刘钊
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-03-01

Abstract

本申请实施例涉及人工智能领域，公开了一种虚拟角色的形象输出方法、装置、设备以及存储介质。其中，方法包括：当接收目标对象的互动请求时，根据互动请求输出预设的互动响应，并采集目标对象的音频数据及视频数据；根据音频数据的提取目标对象的第一语音数据；根据视频数据获取目标对象对应的第二语音数据；根据第一语音数据和第二语音数据确定目标对象的目标语音数据；根据目标语音获取目标文本信息；利用语义分析模型对目标文本信息进行语义分类处理，得到分类结果；根据分类结果获取目标回应方案，并生成回应语音信息及虚拟人物的面部图像控制信息；输出回应语音信息，并根据面部图像控制信息控制虚拟人物面部状态显示。

Description

虚拟角色的形象输出方法、装置、设备以及存储介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种虚拟角色的形象输出方法、装置、设备以及存储介质。

背景技术

随着现今，随着互联网技术和多媒体技术的发展，人们对于电子产品的依赖性也越来越强，目前出现了很多例虚拟人物互动的应用，通过与虚拟人物进行互动能得到一些语音或动作方面的反馈，但是由于目前的虚拟技术大多是通过三维建模后进行后期处理得到的，在进行互动时虚拟人物的表情表现得不自然，用户进行互动时体验感不好，同时，目前的交互方式多为通过预设的人机交互界面来进行交互，减少了互动时体验的乐趣。

发明内容

本申请实施例的主要目的在于提供一种虚拟角色的形象输出方法、装置、设备以及存储介质，旨在实现虚拟人物形象的精准输出，以提升终端设备与用户的互动体验。

第一方面，本申请实施例提供一种虚拟角色的形象输出方法，应用于终端设备，包括：

当接收目标对象的互动请求时，根据所述互动请求输出预设的互动响应，并采集所述目标对象的音频数据及视频数据；

从所述音频数据中提取所述目标对象的第一语音数据，以及从所述视频数据中提取所述目标对象的多张口型变化图像，并根据所述口型变化图像得到所述目标对象的第二语音数据；

根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据，并将所述目标语音数据输入至预设的语音识别模型，得到目标文本信息；

利用语义分析模型对所述目标文本信息进行语义分类处理，得到分类结果，并根据所述分类结果从回应方案数据库中获取目标回应方案，以及根据所述目标回应方案生成回应语音信息及虚拟人物的面部图像控制信息；

输出所述回应语音信息，并根据所述面部图像控制信息控制所述虚拟人物面部状态显示。

第二方面，本申请实施例还提供一种虚拟角色的形象输出装置，包括：

数据采集模块，用于当接收目标对象的互动请求时，根据所述互动请求输出预设的互动响应，并采集所述目标对象的音频数据及视频数据；

语音提取模块，用于从所述音频数据中提取所述目标对象的第一语音数据，以及从所述视频数据中提取所述目标对象的多张口型变化图像，并根据所述口型变化图像得到所述目标对象的第二语音数据；

文本转换模块，用于根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据，并将所述目标语音数据输入至预设的语音识别模型，得到目标文本信息；

方案选择模块，用于利用语义分析模型对所述目标文本信息进行语义分类处理，得到分类结果，并根据所述分类结果从回应方案数据库中获取目标回应方案，以及根据所述目标回应方案生成回应语音信息及虚拟人物的面部图像控制信息；

信息输出模块，用于输出所述回应语音信息，并根据所述面部图像控制信息控制所述虚拟人物面部状态显示。

第三方面，本申请实施例还提供一种终端设备，终端设备包括处理器、存储器、存储在存储器上并可被处理器执行的计算机程序以及用于实现处理器和存储器之间的连接通信的数据总线，其中计算机程序被处理器执行时，实现如本申请说明书提供的任一项虚拟角色的形象输出方法步骤。

第四方面，本申请实施例还提供一种存储介质，用于计算机可读存储，其特征在于，存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现如本申请说明书提供的任一项虚拟角色的形象输出方法步骤。

本申请实施例提供一种虚拟角色的形象输出方法、装置、设备及存储介质，其中，该方法包括当接收目标对象的互动请求时，根据所述互动请求输出预设的互动响应，并采集所述目标对象的音频数据及视频数据；从所述音频数据中提取所述目标对象的第一语音数据，以及从所述视频数据中提取所述目标对象的多张口型变化图像，并根据所述口型变化图像得到所述目标对象的第二语音数据；根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据，并将所述目标语音数据输入至预设的语音识别模型，得到目标文本信息；利用语义分析模型对所述目标文本信息进行语义分类处理，得到分类结果，并根据所述分类结果从回应方案数据库中获取目标回应方案，以及根据所述目标回应方案生成回应语音信息及虚拟人物的面部图像控制信息；输出所述回应语音信息，并根据所述面部图像控制信息控制所述虚拟人物面部状态显示。本申请所提供的虚拟角色的形象输出方法通过在目标对象与终端设备交互时，获取目标对象的与终端设备交互的音频数据和视频数据，利用音频数据获取第一语音数据，利用视频数据获取用户的口型变化图像，并根据口型变化图像识别到用户的第二语数据，利用第二语音数据和第一语音数据获取到目标语音数据，从而弥补通过所获取的语音数据中音频丢失，或者噪音干扰等问题，导致获取的音频信息不完整的问题，同时，利用目标语音数据获取对应的回应方案，并根据回应方案获取到对应的回应语音及与回应语音匹配的面部图像控制信息，输出回应语音信息并根据面部图像控制信息控制虚拟人物面部状态显示，从而使得虚拟人物输出的面部表情与回应语音适配，实现虚拟人物形象的精准输出，提高互动时体验的乐趣。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种虚拟角色的形象输出方法的流程示意图；

图2为本申请实施例提供的一种虚拟角色的形象输出装置的模块结构示意图；

图3为本申请实施例提供的一种终端设备的结构示意框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

为解决上述问题，本申请实施例提供一种虚拟角色的形象输出方法、装置、设备及存储介质，其中，该虚拟角色的形象输出方法可应用于终端设备。该终端设备可以为手机、平板电脑、笔记本电脑、台式电脑、个人数字助理、穿戴式设备、语音交互机器人等带有语音输出及图像输出的智能终端设备。

具体的，该方法包括当接收目标对象的互动请求时，根据所述互动请求输出预设的互动响应，并采集所述目标对象的音频数据及视频数据；从所述音频数据中提取所述目标对象的第一语音数据，以及从所述视频数据中提取所述目标对象的多张口型变化图像，并根据所述口型变化图像得到所述目标对象的第二语音数据；根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据，并将所述目标语音数据输入至预设的语音识别模型，得到目标文本信息；利用语义分析模型对所述目标文本信息进行语义分类处理，得到分类结果，并根据所述分类结果从回应方案数据库中获取目标回应方案，以及根据所述目标回应方案生成回应语音信息及虚拟人物的面部图像控制信息；输出所述回应语音信息，并根据所述面部图像控制信息控制所述虚拟人物面部状态显示。本申请所提供的虚拟角色的形象输出方法通过在目标对象与终端设备交互时，获取目标对象的与终端设备交互的音频数据和视频数据，利用音频数据获取第一语音数据，利用视频数据获取用户的口型变化图像，并根据口型变化图像识别到用户的第二语数据，利用第二语音数据和第一语音数据获取到目标语音数据，从而弥补通过所获取的语音数据中音频丢失，或者噪音干扰等问题，导致获取的音频信息不完整的问题，同时，利用目标语音数据获取对应的回应方案，并根据回应方案获取到对应的回应语音及与回应语音匹配的面部图像控制信息，输出回应语音信息并根据面部图像控制信息控制虚拟人物面部状态显示，从而使得虚拟人物输出的面部表情与回应语音适配，实现虚拟人物形象的精准输出，提高互动时体验的乐趣。

下面结合附图，对本申请的一些实施例作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请实施例提供的一种虚拟角色的形象输出的流程示意图。

如图1所示，该虚拟角色的形象输出方法包括步骤S1至步骤S5。

步骤S1：当接收目标对象的互动请求时，根据所述互动请求输出预设的互动响应，并采集所述目标对象的音频数据及视频数据。

用户想向终端设备进行信息咨询时，通过设置于终端设备上的信息输入装置向终端设备发送互动请求，或者通过预设语音向终端设备发送互动请求。

终端设备在接收到用户发出的互动请求后，输出预设的互动响应，例如，播放欢迎视频或语音，并将用户作为目标对象并开始记录该目标对象说话语音及目标用户说话时的实时视频，并在用户停止说话预设时间段后，将所记录的说话语音作为音频数据，将所记录的实时视频作为视屏数据。

示例性地，可以通过预设语音向终端设备发送互动请求，如，该终端设备被命名为“小新”，用户可以通过向终端设备发送“你好”，“小新”，“小新，你好”，“小新同学”等语音唤醒该终端设备，从而唤醒该终端设备，并与该终端设备进行交互。

终端设备接收到用户发出的交互请求时，输出对应的交互响应，并采集目标对象的音频数据和视频数据，例如，终端设备在接收到用户发出的交互请求后，输出“您好，请问有什么可以帮到您的～”或者，“你好，我的朋友”等预设的交互语音。

在一些实施方式中，所述互动请求为语音互动请求，根据所述互动请求输出预设的互动响应，并采集所述目标对象的音频数据及视频数据，包括：

根据所述语音互动请求输出预设的互动响应，并确定发送所述语音互动请求的声源方向；

将所述声源方向确认为所述终端设备件信息采集的目标方位，并确认所述目标方位是否存在目标对象；

当所述目标方位存在所述目标对象时，采集所述目标对象的音频数据及视频数据。

示例性地，基于发音时音源方向的语音强度大于非音源方向的语音强度，终端设备根据周围环境中的语音强度确定发送所述语音互动请求的声源方向，并根据声源方向进行信息采集方位的调整，从而将摄像头及语音采集器调整到声源方向所在目标方位，从而可以更好的进行语音及视频采集。

当信息采集方向调整到目标方位后，确认目标方向在预设范围内是否存在用户，若存在用户，则将用户作为目标对象，并采集目标对象的音频数据和视频数据，其中，目标对象可以一个或多个。

步骤S2：从所述音频数据中提取所述目标对象的第一语音数据，以及从所述视频数据中提取所述目标对象的多张口型变化图像，并根据所述口型变化图像得到所述目标对象的第二语音数据。

所获取的音频数据中可能存在环境噪音，为了降低环境噪音的影响，需要从音频数据中分离出目标对象的第一语音数据。

通过视频数据获取目标对象的口型变化图像，并根据口型变化图像识别到视频对应中目标对象的唇语信息，从而根据唇语信息获取到视频数据中目标对象的第二语音数据，进而可以利用第一语音数据和第二语音数据获取到较为精准、全面的目标对象的目标语音。

示例性地，基于不同的声音具有不同的声纹特征，从而可以利用声纹特征将用户声音和环境噪声进行区分，以从音频数据中分离出目标对象的语音数据。

首先需要说明的是，所谓声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。

每个人的语音声学特征既有相对稳定性，又有变异性，不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装，也与环境干扰有关。尽管如此，由于每个人的发音器官都不尽相同，因此在一般情况下，人们仍能区别不同的人的声音或判断是否是同一人的声音。

进一步地，声纹特征是与人类的发音机制的解剖学结构有关的声学特征，如频谱、倒频谱、共振峰、基音、反射系数等等、鼻音、带深呼吸音、沙哑音、笑声等；人类的声纹特征受社会经济状况、受教育水平、出生地、语义、修辞、发音、言语习惯等的影响。对于声纹特征，个人特点或受父母影响的韵律、节奏、速度、语调、音量等特征，可以从利用数学方法建模的角度出发，声纹自动识别模型目前可以使用的特征包括：声学特征，如倒频谱；词法特征，如说话人相关的词n-gram，音素n-gram等；韵律特征，如利用ngram描述的基音和能量“姿势”。

实际应用中，进行声纹特征提取时，可以提取音频数据中用户的声纹特征数据，该声纹特征数据包括基音频谱及其轮廓、基音帧的能量、基音共振峰的出现频率及其轨迹、线性预测倒谱、线谱对、自相关和对数面积比、Mel频率倒谱系数(Mel Frequency CepstrumCoefficient，MFCC)、感知线性预测中的至少一者。

在一些实施方式中，所述从所述音频数据中提取所述目标对象的第一语音数据，包括：

将音频数据输入到语音提取模型的特征提取网络进行特征提取，获取所述音频数据对应的特征向量，所述音频数据包括所述目标对象的第一语音数据和环境的噪声数据；

将预设向量和所述特征向量输入到所述语音提取模型的语音提取网络，以从所述音频数据中提取出所述目标对象的第一语音数据，其中，所述语音提取模型通过用户语音训练获得，所述预设向量根据所述噪声数据获得，所述语音提取网络以所述预设向量为参考，调整所述第一语音数据和所述噪声数据在所述音频数据中所占的比例，以获取所述目标对象的第一语音数据。

示例性地，音频数据包括目标对象的第一语音数据和环境的噪声数据。基于目标对象为用户，用户语音与环境噪声具有较大的差别，利用用户语音和环境噪声训练语音提取模型，在进行目标对象语音数据提取时，将获取的音频数据输入到语音提取模型中进行特征提取，以获取音频数据对应的特征向量，并将获取终端设备所在环境的环境噪声并将环境噪声转换为对应的预设向量。

将预设向量及特征向量输入到语音提取模型的语音提取网络，以从音频数据中提取出目标对象的第一语音数据，其中，语音提取模型通过用户语音及环境噪声训练获得，预设向量根据噪声数据获得，语音提取网络以预设向量为参考，调整第一语音数据和噪声数据在音频数据中所占的比例，从而保获取目标对象的第一语音数据。

在一些实施方式中，所述从所述视频数据中提取所述目标对象的多张口型变化图像，并根据所述口型变化图像得到所述目标对象的第二语音数据，包括：

提取所述视频数据的每一帧视频图像中目标对象的口型图像，并根据所述视频数据的时间轴赋予所述口型图像对应的时间戳；

根据所述时间戳将所述口型图像输入至预设的唇语识别模型，以获取所述目标对象的第二语音数据。

示例性地，所获取的视频数据中包括N帧视频图像，提取N帧视频图像中每一帧图像里的目标对象口型图像，并根据每一帧图像的先后顺序为所提取到的口型图像赋予对应的时间戳，根据时间戳的先后顺序将口型图像输入至唇语识别模型中，以获取视频数据对应的第二语音数据。

例如，视频数据中第一帧获取到第一口型图像，第二帧获取到第二口型图像，第三帧获取到第三口型图像，直至第N帧获取到第N口型图像，根据每一帧图像的时间先后顺序赋予对应的口型图像时间戳，从而准确识别出目标对象的口型变化顺序，并根据该时间戳的先后顺序，将先后将视频数据的第一帧到第N帧所获取的口型图像输入至唇语识别模型中，以获取视频数据对应的第二语音数据。

步骤S3：根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据，并将所述目标语音数据输入至预设的语音识别模型，得到目标文本信息。

第一语音数据中可能会因为环境噪音的影响造成所获取的目标对象语音被环境噪声覆盖或语音采集器受到环境干扰无法即使获取到目标对象语音，从而造成目标对象的语音缺失，在语音缺失部分利用第二语音数据所对应的部分进行补偿，从而获取到目标对象的目标语音数据。利用预设的语音识别模型识别所获取的目标语音数据，从而获取到目标文本信息，例如，利用预设的语音识别模型识别所获取的目标语音数据，从而获取到目标文本信息，例如，通过自动语音识别(Automatic Speech Recognition，ASR)技术将目标语音转换为对应的目标文本。

在一些实施方式中，所述根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据，包括：

将所述第一语音数据和所述第二语音数据对比，判断所述第一语音数据是否存在语音缺失；

当所述第一语音数据存在语音缺失时，根据所述第二语音数据对所述第一语音数据进行语音补偿，得到所述目标语音数据。

其中，所述根据所述第二语音数据对所述第一语音数据进行语音补偿，得到所述目标语音数据，包括：

标记所述第一语音数据的缺失部分，并获取与所述缺失部分对应的第一时间段；

从所述第二语音数据中获取与所述第一时间段对应的第二语音数据段，并利用所述第二语音数据段补偿所述缺失部分，得到所述目标语音数据。

示例性地，基于语音数据和视频数据为同时获取，因此第一语音数据和第二语音数据的起始时间相同，通过对比第一语音数据所对应的第一音频信号及第二语音数据所对应的第二音频信号在时间连续性上的相似度，从而判断出第一语音数据是否存在语音缺失，当存在语音缺失时，标记语音缺失部分，并获取缺失部分对应的第一时间段，从第二语音数据中获取与所述第一时间段相同时间段所对应的第二语音数据段，并利用第二语音数据段补偿第一语音数据的缺失部分，从而获取到目标对象的目标语音数据。

步骤S4：利用语义分析模型对所述目标文本信息进行语义分类处理，得到分类结果，并根据所述分类结果从回应方案数据库中获取目标回应方案，以及根据所述目标回应方案生成回应语音信息及虚拟人物的面部图像控制信息。

在获取到目标文本后，通过对目标文本进行关键词拆分，获取对应的关键词，终端设备内设置有关键词和语义类型之间的对应关系，通过获取目标文本对应的关键词后，可以利用关键词分析出当前目标文本的语义分类。

或者，利用关键词对预设神经网络进行训练，获得对应的语义分析模型，通过语义分析模块可以分析出目标文本所对应的语义分类。

终端设备内设置有语义分类结果和目标回应方案之间的关联关系，当确认目标文本的语义分类结果后，可以根据分类结果输出对应的目标回应方案，并根据目标回应分案生成回应语音信息及虚拟人物的面部图像控制信息。

在一些实施方式中，利用语义分析模型对所述目标文本信息进行语义分类处理，得到分类结果，包括：

将所述目标文本信息进行关键词拆分，并根据拆分后的关键词获取第一特征向量；

将所述第一特征向量输入至语义分析模型，以获取语义分类结果。

示例性地，语义分类中包括但不限定于天气咨询、位置咨询，当目标对象向终端设备发出的交互语音为“小新，请你告诉我，明天天气怎么样”。终端设备根据交互语音提取到对应的目标文本信息，并根据目标文本信息提取到关键词“明天”、“天气”、“怎么样”，则根据该关键词可以获知目标对象想要获知明天的天气状况，即，获取到该目标文本的分类结果对应天气咨询的分类。

又例如，当目标对象向终端设备发出的交互语音为“小新，A美食街在哪里？”。终端设备根据交互语音提取到对应的目标文本信息，并根据目标文本信息提取到关键词“A美食街”、“在哪里”，则根据该关键词可以获知目标对象想要获知A美食街的位置，即，获取到该目标文本的分类结果对应位置咨询的分类。

当终端设备通过语义分类获知目标对象想获知“明天天气如何”时，通过调用第三方平台获知第二天的天气预报信息，如，某某地区明天天气晴，气温19-26℃时，则生成“某某地区明天天气晴，气温19-26℃”的语音、及该语音所对应的虚拟人物的面部图像控制信息，该面部表情控制信息至少用于控制虚拟人物的唇部跟随语音发生相对变化。

当终端设备通过语义分类获知目标对象想获知“A美食街的位置”时，通过调用第三方平台获知A美食街的具体位置，如，A美食街的具体位置在C市B区D号地铁的E出口处时，则生成“A美食街在C市B区D号地铁的E出口处”的语音、及该语音所对应的虚拟人物的面部图像控制信息，该面部表情控制信息至少用于控制虚拟人物的唇部跟随语音发生相对变化。

通过根据输出的语音同步控制虚拟人物的面部表情和或唇部发生变化，以使虚拟人物的唇部变化与发音相匹配，拟人效果更优。

步骤S5：输出所述回应语音信息，并根据所述面部图像控制信息控制所述虚拟人物面部状态显示。

终端设备设置有语音输出装置及图像输出装置，语音输出装置包括但不限于扬声器或扬声器组、图像输出装置包括但不限定于显示器、触控显示屏。

在根据目标回应方案生成回应语音信息及虚拟人物的面部图像控制信息后，通过语音输出装置输出对应的语音信息，并根据虚拟人物的面部图像控制信息控制图像输出装置输出对应的虚拟人物面部状态，以使虚拟人物面部状态跟随回应语音信息发生变化。

请参阅图2，本申请还提供了一种虚拟角色的形象输出装置200，该虚拟角色的形象输出装置200包括数据采集模块201、目标语音模块202、文本转换模块203、语义分析模块204、及信息输出模块205。

其中，数据采集模块201，用于当接收目标对象的互动请求时，根据所述互动请求输出预设的互动响应，并采集所述目标对象的音频数据及视频数据；

语音提取模块202，用于从所述音频数据中提取所述目标对象的第一语音数据，以及从所述视频数据中提取所述目标对象的多张口型变化图像，并根据所述口型变化图像得到所述目标对象的第二语音数据；

文本转换模块203，用于根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据，并将所述目标语音数据输入至预设的语音识别模型，得到目标文本信息；

方案选择模块204，用于利用语义分析模型对所述目标文本信息进行语义分类处理，得到分类结果，并根据所述分类结果从回应方案数据库中获取目标回应方案，以及根据所述目标回应方案生成回应语音信息及虚拟人物的面部图像控制信息；

信息输出模块205，用于输出所述回应语音信息，并根据所述面部图像控制信息控制所述虚拟人物面部状态显示。

在一些实施方式中，所述互动请求为语音互动请求，数据采集模块201还用于：根据所述语音互动请求输出预设的互动响应，并确定发送所述语音互动请求的声源方向；

将所述声源方向确认为所述终端设备件信息采集的目标方位，并判断所述目标方位是否存在目标对象；

在一些实施方式中，目标语音模块202还用于：将音频数据输入到语音提取模型的特征提取网络进行特征提取，获取所述音频数据对应的特征向量，所述音频数据包括所述目标对象的第一语音数据和环境的噪声数据；

在一些实施方式中，目标语音模块202还用于：提取所述视频数据的每一帧视频图像中目标对象的口型图像，并根据所述视频数据的时间轴赋予所述口型图像对应的时间戳；

在一些实施方式中，目标语音模块202还用于：将所述第一语音数据和所述第二语音数据对比，判断所述第一语音数据是否存在语音缺失；

在一些实施方式中，目标语音模块202还用于：标记所述第一语音数据的缺失部分，并获取与所述缺失部分对应的第一时间段；

在一些实施方式中，语义分析模块206还用于：将所述目标文本信息进行关键词拆分，并根据拆分后的关键词获取第一特征向量；

请参阅图3，图3为本申请实施例提供的终端设备的结构示意性框图。

如图3所示，终端设备300包括处理器301和存储器302，处理器301和存储器302通过总线303连接，该总线比如为I2C(Inter-integrated Circuit)总线。

具体地，处理器301用于提供计算和控制能力，支撑整个服务器的运行。处理器301可以是中央处理单元(Central Processing Unit，CPU)，该处理器301还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

具体地，存储器302可以是Flash芯片、只读存储器(ROM，Read-Only Memory)磁盘、光盘、U盘或移动硬盘等。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请实施例方案相关的部分结构的框图，并不构成对本申请实施例方案所应用于其上的终端设备的限定，具体的终端设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，处理器301用于运行存储在存储器中的计算机程序，并在执行计算机程序时实现本申请实施例提供的任意一种虚拟角色的形象输出方法。

在一些实施方式中，处理器301用于运行存储在存储器中的计算机程序，并在执行计算机程序时实现如下步骤：

在一些实施方式中，所述互动请求为语音互动请求，处理器301在根据所述互动请求输出预设的互动响应，并采集所述目标对象的音频数据及视频数据时，包括：

在一些实施方式中，处理器301在从所述音频数据中提取所述目标对象的第一语音数据时，包括：

在一些实施方式中，处理器301在从所述视频数据中提取所述目标对象的多张口型变化图像，并根据所述口型变化图像得到所述目标对象的第二语音数据，包括：

在一些实施方式中，处理器301在根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据时，包括：

在一些实施方式中，处理器301在根据所述第二语音数据对所述第一语音数据进行语音补偿，得到所述目标语音数据时，包括：

在一些实施方式中，处理器301在利用语义分析模型对所述目标文本信息进行语义分类处理，得到分类结果时，包括：

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的终端设备的具体工作过程，可以参考前述虚拟角色的形象输出方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种存储介质，用于计算机可读存储，存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现如本申请说明书实施例提供的任一项虚拟角色的形象输出方法步骤。

其中，存储介质可以是前述实施例的终端设备的内部存储单元，例如终端设备的硬盘或内存。存储介质也可以是终端设备的外部存储设备，例如终端设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施例中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上，仅为本申请的具体实施例，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种虚拟角色的形象输出方法，应用于终端设备，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述互动请求为语音互动请求，所述根据所述互动请求输出预设的互动响应，并采集所述目标对象的音频数据及视频数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述从所述音频数据中提取所述目标对象的第一语音数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述从所述视频数据中提取所述目标对象的多张口型变化图像，并根据所述口型变化图像得到所述目标对象的第二语音数据，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述第二语音数据对所述第一语音数据进行语音补偿，得到所述到目标语音数据，包括：

7.根据权利要求1所述的方法，其特征在于，所述利用语义分析模型对所述目标文本信息进行语义分类处理，得到分类结果，包括：

8.一种虚拟角色的形象输出装置，其特征在于，包括：

9.一种终端设备，其特征在于，所述终端设备包括处理器、存储器、存储在所述存储器上并可被所述处理器执行的计算机程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，其中所述计算机程序被所述处理器执行时，实现如权利要求1至7中任一项所述的虚拟角色的形象输出方法步骤。

10.一种存储介质，用于计算机可读存储，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1至7中任一项所述的虚拟角色的形象输出方法步骤。