CN110446000B

CN110446000B - 一种生成对话人物形象的方法和装置

Info

Publication number: CN110446000B
Application number: CN201910723602.2A
Authority: CN
Inventors: 殷小芳; 周鹏
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2019-08-07
Filing date: 2019-08-07
Publication date: 2021-04-16
Anticipated expiration: 2039-08-07
Also published as: CN110446000A

Abstract

本申请公开了一种对话人物形象的生成方法和装置，其中方法包括：用户终端根据通话对端的头像图片，采用预设的第一神经网络模型，生成头像图片对应的三维脸部网格的坐标点；在预设的需要生成3D头像的场景下，在每个语音采集周期，用户终端从本周期采集的音频信号中提取出语音特征参数，并根据所述音频信号和预设的第二神经网络模型，生成相应的情绪状态向量，根据所述三维脸部网格的坐标点、所述语音特征参数、所述情绪状态向量和预设的第三神经网络模型，生成每个所述坐标点在本周期的3D表情数据，根据所述3D表情数据在当前通话界面显示所述通话对端的3D表情。应用本发明，可以增加通话时对话人物形象的生动性，减少通话开销对通信质量的影响。

Description

一种生成对话人物形象的方法和装置

技术领域

本申请涉及计算机应用领域，特别涉及一种生成对话人物形象的方法和装置。

背景技术

现有的视频通话或直播方案中一般采用以下几种方法呈现对话人物的形象：

方法一：视频通话的一方获取预设图像，根据语音信息的特征在库里选取对应的嘴部表情，生成表情帧传给对方，这些表情帧是二维的，像表情包一样。

方法二：在视频通话画面不流畅时，终端一会根据虚拟形象对当前视频帧进行裁剪，然后把裁剪后的视频帧和虚拟形象标识符发送给终端二，这些虚拟形象也是二维的。

申请人在提出本发明的过程中发现上述方法存在：恶化网络通信质量以及视频通话不够形象生动进而影响用户体验的问题，具体分析如下。

一、上述方法都是在视频通话画面不流畅时，将己方的二维的表情帧或者是虚拟形象发送给视频对方，这些表情帧和虚拟形象是二维的，不够真实，不能真实生成用户的形象，从而使得视频通话时视频对象的播放效果不够形象、生动，进而影响用户体验。

二、上述方法中生成的表情帧或虚拟形象需要发送给对方，因此会占用一定的网络传输资源。而上述表情帧或虚拟形象的生成通常是在视频通话画面不流畅时，这样，在原本通信质量较差的情况下，传输资源的进一步占用必将导致通信质量的恶化。

发明内容

本申请提供了一种生成对话人物形象的方法和装置，可以增加通话时对话人物形象的生动性，以及减少通话开销对通信质量的影响。

一种对话人物形象的生成方法，包括：

用户终端根据通话对端的头像图片，采用预设的第一神经网络模型，生成所述头像图片对应的三维脸部网格的坐标点；

在预设的需要生成3D头像的场景下，在每个预设的语音采集周期，所述用户终端从本周期采集的音频信号中提取出语音特征参数，并根据所述音频信号和预设的第二神经网络模型，生成相应的情绪状态向量，根据所述三维脸部网格的坐标点、所述语音特征参数、所述情绪状态向量和预设的第三神经网络模型，生成每个所述坐标点在本周期的3D表情数据，根据所述3D表情数据在当前通话界面显示所述通话对端的3D表情。

较佳地，所述通话对端的头像图片为所述用户终端从与所述通话对端的通话视频中捕捉到的头像图片，或者为预设的所述通话对端的头像图片。

较佳地，所述方法进一步包括：

在每个所述语音采集周期，所述用户终端根据本周期提取出的所述语音特征参数，判断是否需要生成预设的头部动作向量，如果需要，则生成相应的头部动作向量；

在每个所述语音采集周期，如果本周期生成了所述头部动作向量，则所述生成每个所述坐标点在本周期的3D表情数据包括：

将所述三维脸部网格的坐标点、以及本周期中生成的所述语音特征参数、所述情绪状态向量和所述头部动作向量，输入至所述第三神经网络模型处理，得到每个所述坐标点在本周期的3D表情数据。

较佳地，所述判断是否需要生成预设的头部动作向量包括：

所述用户终端根据本周期提取出的所述语音特征参数，判断本周期采集的音频信号中是否携带所述头部动作向量对应的语义信息，如果是，则判定需要生成相应的头部动作向量。

较佳地，所述头部动作向量包括点头向量和/或摇头向量。

较佳地，所述需要生成3D头像的场景包括当所述用户终端与所述通话对端进行语音通话时、当所述用户终端与所述通话对端进行视频通话时的视频画面发生卡顿或变黑时、以及当所述用户终端播放的关于所述通话对端的直播画面发生卡顿或变黑时。

较佳地，所述语音采集周期的长度T满足：0.1秒≤T≤0.5秒。

较佳地，所述语音特征参数为梅尔倒谱系数(MFCC)特征。

一种对话人物形象的生成装置，设于用户终端中，包括：处理器，所述处理器用于：

在预设的需要生成3D头像的场景下，在每个预设的语音采集周期，从本周期采集的音频信号中提取出梅尔倒谱系数语音特征参数，并根据所述音频信号和预设的第二神经网络模型，生成相应的情绪状态向量，根据所述三维脸部网格的坐标点、所述语音特征参数、所述情绪状态向量和预设的第三神经网络模型，生成每个所述坐标点在本周期的3D表情数据，根据所述3D表情数据在当前通话界面显示所述通话对端的3D表情。

较佳地，所述处理器进一步用于：

在每个所述语音采集周期，根据本周期提取出的所述语音特征参数，判断是否需要生成预设的头部动作向量，如果需要，则生成相应的头部动作向量；

较佳地，所述处理器具体用于：判断是否需要生成预设的头部动作向量，包括：

根据本周期提取出的所述语音特征参数，判断本周期采集的音频信号中是否携带所述头部动作向量对应的语义信息，如果是，则判定需要生成相应的头部动作向量。

较佳地，所述头部动作向量包括点头向量和/或摇头向量。

较佳地，所述语音采集周期的长度T满足：0.1秒≤T≤0.5秒。

较佳地，所述语音特征参数为MFCC特征。

本申请还公开了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行如前所述的对话人物形象的生成方法的步骤。

本申请还公开了一种电子设备，包括如前所述的非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。

由上述技术方案可见，本申请提出的对话人物形象的生成方案中，利用神经网络生成通话对端的3D头像(即所述头像图片对应的三维脸部网格的坐标点)，再利用声音特征和识别的情绪，使3D头像可以随着声音产生3D表情，这样，用户终端上可以实时显示通话对端的3D头像，且具有能够与通话声音同步的3D表情，有效增加了通话时对话人物形象显示的生动性和逼真性，并且，由于不需要通话对端将其头像画面传送过来，因此可以有效减少通话开销对通信质量的影响，尤其是可以避免通信质量较差的情况下通信质量的恶化。

附图说明

图1为本发明实施例的方法流程示意图；

图2为本发明实施例中生成三维脸部网格的坐标点的流程示意图；

图3为图1中步骤102的实施流程示意图；

图4为本发明实施例中从音频信号中提取MFCC特征的流程示意图；

图5为本发明实施例中生成情绪状态向量的流程示意图；

图6为本发明实施例中不同情绪下相同语音时的面部表情示意图。

具体实施方式

为使本申请的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本申请作进一步详细说明。

本发明将在通话过程中，通过神经网络生成视频对象或语音对象的3D头像，再利用声音特征和识别的情绪，使3D头像随着声音产生3D表情(嘴部和面部)，如同用户和真人说话一样，从而提高用户的用户体验。

图1为本发明实施例的方法流程示意图，如图1所示，该实施例实现的对话人物形象的生成方法包括：

步骤101、用户终端根据通话对端的头像图片，采用预设的第一神经网络模型，生成所述头像图片对应的三维脸部网格的坐标点。

本步骤中，需要使用预先训练好的神经网络模型，来生成头像图片对应的三维脸部网格的坐标点，以便此后结合声音中提取出的情绪状态向量和声音特征，生成每个三维坐标点的3D表情数据，从而可以在用户终端的通话界面展示出相应的3D表情。

较佳地，所述第一神经网络模型可以是卷积神经网络(CNN)模型，但不限于此，只要神经网络模型能生成头像图片对应的三维脸部网格的坐标点即可。例如，如图2所示，向CNN模型中输入的是通话对端的头像图片，通过卷积层提取特征，结合每个像素点的双线性插值编码，利用不同的全连接层，最终将输出一定数量(如示例中是5022个)的三维脸部网格的坐标点。

在实际应用中，所述通话对端的头像图片可以是用户终端从与所述通话对端的通话视频中捕捉到的头像图片，也可以是预先设置的通话对端的头像图片。

本步骤中利用预先训练的神经网络模型来生成头像图片对应的三维脸部网格的坐标点的具体方法，为本领域技术人员所掌握，在此不再赘述。

步骤102、在预设的需要生成3D头像的场景下，在每个预设的语音采集周期，所述用户终端从本周期采集的音频信号中提取出语音特征参数，并根据所述音频信号和预设的第二神经网络模型，生成相应的情绪状态向量，根据所述三维脸部网格的坐标点、所述语音特征参数、所述情绪状态向量和预设的第三神经网络模型，生成每个所述坐标点在本周期的3D表情数据，根据所述3D表情数据在当前通话界面显示所述通话对端的3D表情。

本步骤中，需要在每个语音采集周期，从本周期采集的音频信号中提取出语音特征参数，并利用神经网络模型，根据本周期采集的音频信号生成相应的情绪状态向量，然后再基于本周期得到的语音特征参数和情绪状态向量，利用神经网络模型，生成步骤101中得到的每个坐标在本周期对应的3D表情数据，从而可以得到当前通话对端的3D表情对应的坐标数据。这样，通过在每个周期根据实时的音频信号生成通话对端的3D表情对应的坐标数据，使得用户终端可以获得能够随着通话对端的音频信号变化而变化的3D表情数据。例如，如图3所示，当步骤101中生成了5022个脸部网格坐标点后，本步骤中将通过每0.3秒的音频生成一个3D表情，这个3D表情包括脸部和嘴部表情，脸部表情体现了语音里提取到的情绪状态(如高兴、愤怒、悲伤等等)，嘴部表情和声音是一一对应，这个3D表情也还是用5022的脸部网格坐标点表示的，显示全部坐标点就是一个3D人型的表情。

本步骤中，在每个语音采集周期，在生成3D表情数据之前，需要先从本周期采集的音频信号中提取出语音特征参数，目的是改善语音信号质量，统一语音信号格式。

较佳地，所述语音特征参数具体可以为梅尔倒谱系数(MFCC)特征，但不限于此。Mel频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系，Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征。图4给出了从音频信号提取MFCC特征的流程示意图，从音频信号中提取出MFCC特征的具体方法为本领域技术人员所掌握，在此不再赘述。

本步骤中，在每个语音采集周期，为了提升本周期最终生成的人像3D表情数据的准确性，将音频信号携带的人物情绪状态对应的情绪状态向量，也作为最终生成3D表情数据的神经网络模型(即第三神经网络模型)的输入数据之一。情绪状态向量为原始音频经过神经网络产生的高维度向量。整个情绪状态向量的识别生成流程如图5所示，从原始音频信号中提取出语谱图作为神经网络模型(即第二神经网络模型)的输入，经过卷积神经网络和LSTM网络得出代表情绪特征的高维度向量，将该向量作为最终生成3D表情数据的神经网络模型的输入部分之一，能够极大地提升最终生成人物表情的生动性和准确率。目前，基于神经网络可以检测出的情绪状态目前包括生气、中立、高兴和悲伤等。由于情绪状态会影响说话时的面部表情，这样，即使在相同语音下，情绪不同时，所显示出的通话对方的3D面部表情也将不同(如图6所示)，从而可以有效提高通话时对话人物形象的生动性。

在实际应用中，所述语音采集周期可由本领域技术人员根据实际需要设置合适取值。较佳的，为了使得声音和表情的实时同步效果较好，周期长度T可以满足：0.1秒≤T≤0.5秒即可，例如，可以是0.3秒。

本步骤中，用于最终生成3D表情数据的所述第三神经网络模型可以为卷积神经网络模型，具体的训练生成方法为本领域技术人员所掌握，在此不再赘述。

较佳地，为了进一步增加3D头像的生动性，在特定语音下，可以为3D形象生成一些头部动作，以增强此3D头像对此语音的表达，即可以通过从音频信号中提取出需要执行头部动作的语义信息，根据这些语义信息来执行3D头像的头部动作。例如，可以在表示赞同和同意的语音下，生成点头的动作；在表示拒绝和不同意的语音下，生成的是摇头的动作。具体可以采用下述方法实现：

在每个所述语音采集周期，所述用户终端根据本周期提取出的所述语音特征参数，判断是否需要生成预设的头部动作向量，如果需要，则生成相应的头部动作向量。

较佳地，可以采用下述方法判断是否需要生成预设的头部动作向量：

这里，用户终端可以基于一个预先训练的神经网络模型，根据本周期提取出的所述语音特征参数，来判断本周期采集的音频信号中是否携带所述头部动作向量对应的语义信息，具体方法为本领域技术人员所掌握，在此不再赘述。

具体地，所述头部动作向量可由本领域技术人员根据实际需要设置。例如，较佳地，所述头部动作向量可以包括点头向量和/或摇头向量。

在每个所述语音采集周期，如果本周期生成了所述头部动作向量，则可以采用下述方法，结合本周期生成了所述头部动作向量，生成每个所述坐标点在本周期的3D表情数据：

所述需要生成3D头像的场景具体可由本领域技术人员根据实际需要设置。例如，较佳地，需要生成3D头像的场景可以包括以下几个场景：

当所述用户终端与通话对端(如语音助手)进行语音通话时；

当所述用户终端与通话对端进行视频通话时的视频画面发生卡顿或变黑时；

当所述用户终端播放的关于通话对端的直播画面发生卡顿或变黑时。

与上述方法实施例相对应，本发明还提供了一种对话人物形象的生成装置，设于用户终端中，包括：处理器，所述处理器用于：

根据通话对端的头像图片，采用预设的第一神经网络模型，生成所述头像图片对应的三维脸部网格的坐标点；

在预设的需要生成3D头像的场景下，在每个预设的语音采集周期，从本周期采集的音频信号中提取出语音特征参数，并根据所述音频信号和预设的第二神经网络模型，生成相应的情绪状态向量，根据所述三维脸部网格的坐标点、所述语音特征参数、所述情绪状态向量和预设的第三神经网络模型，生成每个所述坐标点在本周期的3D表情数据，根据所述3D表情数据在当前通话界面显示所述通话对端的3D表情。

较佳地，所述处理器进一步用于：

较佳地，所述头部动作向量包括点头向量和/或摇头向量。

较佳地，所述语音采集周期的长度T满足：0.1秒≤T≤0.5秒。

较佳地，所述语音特征参数具体可以为梅尔倒谱系数(MFCC)特征，但不限于此。

通过上述实施例可以看出，通过采用上述方案，用户终端上显示的通话对端的3D头像的表情和通话声音能够实时同步，有效增加了通话时对话人物形象显示的生动性和逼真性，并且，由于不需要通话对端将其头像画面传送过来，因此可以有效减少通话开销对通信质量的影响，尤其是可以避免通信质量较差的情况下通信质量的恶化。

由此可见，基于本发明的上述实施例，对于任何只有语音没有画面的情况，都可以根据预设的通话对端的头像图片，生成3D形象，并且，该3D形象可以根据语音信息，实时地具有3D面部表情，使得用户感觉如同和真人对话一般，有效提高了用户体验。下面利用几个具体场景对本发明实施例所实现的具体功能做进一步说明：

实施例一：用户在与语音助手交谈时，此时语音助手是没有画面形象的，用户可以设置任意人物照片，根据人物照片生成3D模型，再根据语音助手的实时语音，获取声音里的情绪状态，这个3D人物的表情(包括面部和嘴部)实时显示在手机屏幕上，用户与语音助手对话如同真人交流一般，增加用户体验。

实施例二：用户在打视频电话时，有时视频画面卡顿或变黑，此时根据之前捕获的对方的照片，生成对方的3D模型，根据对方此时的说话声音，获取声音里的情绪状态，每0.3秒生成一个3D表情，这个3D模型的表情实时显示在通话界面上。

实施例三：在生成3D头像之后，根据实时语音里提取的是赞同还是反对的信息，生成头部动作，如点头表示赞同，摇头表示反对。

实施例四：用户在观看直播时，直播里的画面变卡顿或是没有画面，此时根据之前捕获的对方的照片，生成对方的3D模型，根据对方的说话声音，获取声音里的情绪状态，每0.3秒生成一个面部表情，这个3D模型的表情实时显示在直播界面上。

此外，本申请还提供了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行如前所述的对话人物形象的生成方法的步骤。

此外，本申请还提供了一种电子设备，包括如上所述的非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种对话人物形象的生成方法，其特征在于，包括：

在预设的需要生成3D头像的场景下，在每个预设的语音采集周期，所述用户终端从本周期采集的音频信号中提取出语音特征参数；根据所述音频信号和预设的第二神经网络模型，生成相应的情绪状态向量；根据所述语音特征参数，判断是否需要生成预设的头部动作向量，如果需要，则生成相应的头部动作向量，并将所述三维脸部网格的坐标点、以及本周期中生成的所述语音特征参数、所述情绪状态向量和所述头部动作向量，输入至所述第三神经网络模型处理，得到每个所述坐标点在本周期的3D表情数据，否则，根据所述三维脸部网格的坐标点、所述语音特征参数、所述情绪状态向量和预设的第三神经网络模型，生成每个所述坐标点在本周期的3D表情数据；根据本周期的3D表情数据在当前通话界面显示所述通话对端的3D表情。

2.如权利要求1所述的方法，其特征在于：所述通话对端的头像图片为所述用户终端从与所述通话对端的通话视频中捕捉到的头像图片，或者为预设的所述通话对端的头像图片。

3.如权利要求1所述的方法，其特征在于：所述判断是否需要生成预设的头部动作向量包括：

4.如权利要求1所述的方法，其特征在于：所述头部动作向量包括点头向量和/或摇头向量。

5.如权利要求1所述的方法，其特征在于：所述需要生成3D头像的场景包括当所述用户终端与所述通话对端进行语音通话时、当所述用户终端与所述通话对端进行视频通话时的视频画面发生卡顿或变黑时、以及当所述用户终端播放的关于所述通话对端的直播画面发生卡顿或变黑时。

6.如权利要求1所述的方法，其特征在于：所述语音采集周期的长度T满足：0.1秒≤T≤0.5秒。

7.如权利要求1所述的方法，其特征在于：所述语音特征参数为梅尔倒谱系数MFCC特征。

8.一种对话人物形象的生成装置，其特征在于，设于用户终端中，包括：处理器，所述处理器用于：

9.如权利要求8所述的装置，其特征在于：所述通话对端的头像图片为所述用户终端从与所述通话对端的通话视频中捕捉到的头像图片，或者为预设的所述通话对端的头像图片。

10.如权利要求8所述的装置，其特征在于，所述处理器具体用于：判断是否需要生成预设的头部动作向量，包括：

11.如权利要求8所述的装置，其特征在于：所述头部动作向量包括点头向量和/或摇头向量。

12.如权利要求8所述的装置，其特征在于：所述需要生成3D头像的场景包括当所述用户终端与所述通话对端进行语音通话时、当所述用户终端与所述通话对端进行视频通话时的视频画面发生卡顿或变黑时、以及当所述用户终端播放的关于所述通话对端的直播画面发生卡顿或变黑时。

13.如权利要求8所述的装置，其特征在于：所述语音采集周期的长度T满足：0.1秒≤T≤0.5秒。

14.如权利要求8所述的装置，其特征在于：所述语音特征参数为梅尔倒谱系数MFCC特征。

15.一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储指令，其特征在于，所述指令在由处理器执行时使得所述处理器执行如权利要求1至7中任一项所述的对话人物形象的生成方法的步骤。

16.一种电子设备，其特征在于，包括如权利要求15所述的非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。