CN111274447A

CN111274447A - 基于视频的目标表情生成方法、装置、介质、电子设备

Info

Publication number: CN111274447A
Application number: CN202010032947.6A
Authority: CN
Inventors: 郑如刚
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Smart Technology Co Ltd; OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2020-06-12

Abstract

本发明涉及计算机技术领域，揭示了一种基于视频的目标表情生成方法、装置、介质及电子设备。该方法包括：响应于用户触发的目标表情制作指令，阅读视频；识别所述视频中的人脸图像，以获取具有人脸图像的清晰的目标图片；对所述目标图片中人脸图像的表情进行实时分析，以获得所述目标图片中人脸图像表情的表情指数；根据所有目标图片中人脸图像表情的表情指数，生成目标表情。此方法下，通过截取视频中的人脸图像，并根据人脸图像表情的表情指数生成目标表情，能够简化表情的制作流程，同时保证所制作的表情更加真实生动，提高用户体验。

Description

基于视频的目标表情生成方法、装置、介质、电子设备

技术领域

本发明涉及计算机技术领域，特别涉及一种基于视频的目标表情生成方法、装置、介质及电子设备。

背景技术

由于表情能够在很大程度上增加用户之间信息交互的灵活性和趣味性，所以在目前的社交平台上，用户之间在聊天时通过发送表情来表达自己特定的意思和情感已经变得十分常见。

在现有技术中，用户所使用的表情主要来源于两个方面：一是从网络上获取，这一类表情一般由第三方制作，第三方将制作好的表情包上传至网络供用户下载使用。二是由用户自己制作，即用户通过选取一张或者多张图片，通过简单的处理，生成一张静态或者动态的表情。

然而，对于如第一种情况所述的表情而言，其主要由第三方提供，内容固定，数量有限，难免会出现无法达到自己想要的效果的情况，给用户的个性化需求造成了很大的限制。第二种情况所述的表情由用户自己制作，例如，用户可以使用自己或者他人的照片制作能够表达自己个性的表情，尽管这一方式能够在一定程度上满足用户的个性化需求，但是由于这样制作的表情不是真实场景触发，用户的表情不可避免会变得比较做作，不够真实生动，而且每个表情都要单独制作，相当麻烦，影响用户体验。

发明内容

在计算机技术领域，为了解决现有技术中存在因无法控制表情细节而带来的制作表情不够真实生动且制作麻烦，影响用户体验的技术问题，本发明提出了一种基于视频的目标表情生成方法、装置、介质及电子设备。

根据本申请的一方面，提供了一种基于视频的目标表情生成方法，所述方法包括：

响应于用户触发的目标表情制作指令，阅读视频；

识别所述视频中的人脸图像，以获取具有人脸图像的清晰的目标图片；

对所述目标图片中人脸图像的表情进行实时分析，以获得所述目标图片中人脸图像表情的表情指数；

根据所有目标图片中人脸图像表情的表情指数，生成目标表情。

根据本申请的另一方面，提供了一种基于视频的目标表情生成装置，所述装置包括：

阅读模块，用于响应于用户触发的目标表情制作指令，阅读视频；

识别模块，用于识别所述视频中的人脸图像，以获取具有人脸图像的清晰的目标图片；

分析模块，用于对所述获取到的目标图片中人脸图像的表情进行实时分析，以获得所述目标图片中人脸图像表情的表情指数；

生成模块，用于根据所有目标图片中人脸图像表情的表情指数，生成目标表情。

根据本申请的另一方面，提供了一种计算机可读程序介质，其存储有计算机程序指令，当所述计算机程序指令被计算机执行时，使计算机执行如前所述的方法。

根据本申请的另一方面，提供了一种电子设备，所述电子设备包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如前所述的方法。

由以上本发明的技术方案，与现有技术相比，其显著的有益效果在于：通过截取视频中具有人脸图像的图片，并根据人脸图像表情的表情指数生成目标表情，能够简化表情的制作流程，同时保证所制作的表情更加真实生动，提高用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和有益效果将在下面的描述中显现，或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的基于视频的目标表情生成方法的应用场景示意图；

图2是根据一示例性实施例示出的一种基于视频的目标表情生成方法的流程图；

图3是根据图2对应实施例示出的一实施例的步骤220的细节流程图；

图4是根据图2对应实施例示出的一实施例的步骤230的细节流程图；

图5是根据图2对应实施例示出的一实施例的步骤240的细节流程图；

图6是根据图5对应实施例示出的一实施例的步骤241的细节流程图；

图7是根据图2对应实施例示出的另一实施例的步骤240的细节流程图；

图8是根据图2对应实施例示出的一实施例的步骤240之后的方法流程图；

图9是根据一示例性实施例示出的一种基于视频的目标表情生成装置的框图；

图10是根据一示例性实施例示出的一种实现上述方法的电子设备示例框图；

图11是根据一示例性实施例示出的一种实现上述方法的计算机可读存储介质。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

本公开首先提供了一种基于视频的目标表情生成方法。所述目标表情在本发明中可以是指用户在社交，商业等需要进行信息交流的平台上的用于表达自身意思或者情感的动态或者静态的表情包，例如在微信聊天中所使用的表情。在具体实践过程中，本申请的发明人发现，现有技术中用户所使用的表情主要来源于两个方面：一是从网络上获取，这一类表情一般由第三方制作，第三方将制作好的表情包上传至网络供用户下载使用。二是由用户自己制作，即用户通过选取一张或者多张图片，通过简单的处理，生成一张静态或者动态的表情。然而，第一类表情来源的弊端就在于用户的个性化需求得不到满足。而第二类用户制作的表情又不够真实生动且制作麻烦，效率低，影响用户体验。为此，本申请的发明人考虑到，可以将视频作为基础素材来制作表情，并可以根据用户的要求一键式生成表情，或者是基于用户的操作来生成表情，如此一来，就可以解决现有技术中表情不满足用户个性化需求和表情制作效率低的技术问题。

需要注意的是，本发明的实施环境可以是便携移动设备，例如智能手机、平板电脑、笔记本电脑等，也可以是各种固定式设备，例如，计算机设备、现场终端、台式电脑、服务器、工作站等。

图1是根据一示例性实施例示出的基于视频的目标表情生成方法的应用场景示意图。在图1所示的实施例的应用场景中，本发明采用了基于视频生成表情的方式来进行表情制作，当要进行表情制作时，首先利用图片识别算法102从目标视频101中筛选出符合要求的目标图片103，然后将目标图片输入到表情评价模型104中去，由表情评价模型104输出具有表情指数的目标图片105，最后将根据实际需求选择具有表情指数的目标图片105进行合成，以生成目标表情。

图2是根据一示例性实施例示出的一种基于视频的目标表情生成方法的流程图。如图2所示，此方法包括以下步骤：

步骤210，响应于用户触发的目标表情制作指令，阅读视频。

具体的，在本发明中，制作目标表情可以是在客户端中实现操作的，而客户端的形式又可以是多样的。例如，可以是浏览器的Web端，可以是个人电脑(PC，personalcomputer)上应用程序端，也可以是智能手机上的App(Application)，还可以是安装在个人电脑应用程序端或者智能手机App上一个插件。

在上述步骤210中，用户触发目标表情制作指令操作方式也可以是多样的，具体如下：

在一示例性实施例中，用户在客户端上触发目标表情制作指令可以用手势和触摸的方式完成。在具体实现中，通过点触触摸屏、触摸板和触控屏等方式，来实现目标表情制作指令的触发。

在一示例性实施例中，用户在客户端上触发目标表情制作指令也可以用语音识别的方式来触发。在具体实现中，客户端上有基于人工智能引擎(AIE，ArtificialIntelligence Engine)的语音识别工具，通过该语音识别工具可以将用户的语音信息转化为文字和指令动作信息，从而实现目标表情制作指令的触发。

在另一示例性实施例中，用户在客户端上触发目标表情制作指令还可以用键盘和鼠标的方式触发。在具体实现中，可以通过敲击键盘和鼠标上的按键或按钮来实现目标表情制作指令的触发。

如上所述，可以理解的是，用户在客户端上触发目标表情制作指令的实现方式可以是任意的，并不限于如上所示出的那些。

当客户端接收到目标表情的制作指令之后，便开始阅读视频。需要注意的是，所述视频的来源途径可以有多种。

在一个示例性实施例中，所述视频可以是来源于用户在进行的视频对话，例如，用户A正在与其好友B通过微信客户端进行视频对话，微信客户端上安装有本发明中所述制作目标表情的一个插件。当用户A触发所述插件上的目标表情制作指令，并选择正在进行的视频对话作为视频来源之后，所述插件便开始阅读视频对话中的视频。

在其它实施例中，所述视频也可以是来源于其它途径。例如，可以来源于网络资源。也可以是来源于客户端所在设备的本地资源。还可以是来源于现场录制。

步骤220，识别所述视频中的人脸图像，以获取具有人脸图像的清晰的目标图片。

由于连续的图像变化每秒超过24帧(frame)画面以上时，根据视觉暂留原理，人眼便无法辨别单幅的静态画面，使得人们在看上去是平滑连续的视觉效果，这样的连续画面叫做视频(Video)。因此，可以将视频的本质理解为若干帧图片的的集合。

在本发明的一个示例性实施例中，通过阅读视频，在获取具有人脸图像的清晰的目标图片之前，首先需要识别所述视频中的人脸图像。具体的，识别所述视频中的人脸图像即检测所述视频中每一帧图片是否包含人脸。如果所述图片中包含人脸图像，则保留所述图片；如果所述图片中不包含人脸图像，则过滤所述图片。

检测所述视频中每一帧图片是否包含人脸的检测方法可以有多种，具体如下：

在一个实施例的具体实现中，检测所述视频中每一帧图片是否包含人脸可以是通过参考模板法来实现的。具体的，首先设计很多人脸的模板，然后在所述图片中查找是否有与模板匹配的画面，并通过阈值来判断是否存在人脸。

在一个实施例的具体实现中，检测所述视频中每一帧图片是否包含人脸也可以是通过人脸规则法来实现的，具体的，虽然每个人脸型都有所不同，但具有共同的结构分布特征，人脸规则的方法即提取这些特征生成相应的规则以判断所述图片中是否包含人脸。

在一个实施例的具体实现中，检测所述视频中每一帧图片是否包含人脸还可以是通过特征子脸法来实现的，具体的，这种方法是将所有人脸图像集合视为一个人脸图像子空间，并基于所述图片与其在子空间的投影之间的距离判断是否存在人脸图像。

此外，检测所述视频中每一帧图片是否包含人脸还可以是对上述几种方法的综合使用，综合使用上述几种方法检测所述视频中每一帧图片是否包含人脸的好处就在于可以大大提高检测人脸是否存在的准确率。

如上所述，可以理解的是，检测所述视频中每一帧图片是否包含人脸的实现方式可以是任意的，并不限于如上所示出的那些。

在本发明一个示例性实施例中，获取具有人脸图像的清晰的目标图片可以通过如下方式完成：

如图3是根据图2对应实施例示出的一实施例的步骤220的细节流程图。如图3所示，步骤220包括以下步骤：

步骤221，确定所述视频中每一帧具有人脸图像的图片的可识别度。

在过滤掉所述视频中不包含人脸图像的图片之后，需要对所述视频中每一帧具有人脸图像的图片的可识别度进行确定。可识别度实际上就是指图片的清晰度，图片是否清晰主要由图片的像素还有视频在拍摄时镜头的分辨率、拍摄距离的远近、对焦的准确性、图片存储的格式和大小、光线以及曝光来决定。而确定所述视频中每一帧具有人脸图像的图片可识别度的目的在于筛选出清晰的具有人脸图像的图片，进而使得最终所生成的目标表情的效果更加真实生动，质量更高。

具体的，确定所述视频中每一帧具有人脸图像的图片的可识别度可以通过如下方式完成：

在具体实现中，确定所述图片的可识别度首先可以将所述图片转化为灰度图，然后将所述灰度图的图像数据输入图片清晰度评价算法，由所述图片清晰度评价算法输出能够体现图片清晰度的计算结果，并将所述计算结果作为所述图片的可识别度。需要注意的是，在本发明中，图片的可识别度越高，即表示图片越清晰。

进一步的，在如上所述的实现方式中，将所述图片转化为灰度图可以是采用转化算法grey＝(R+G+B)/3来完成的，其中，R、G、B是分别表示红(R)、绿(G)、蓝(B)三个颜色通道的强度。

进一步的，在如上所述的实现方式中，所述图片清晰度评价算法可以是基于Brenner梯度函数而设计的，Brenner梯度函数主要是计算图片中相邻两个像素灰度差的平方，该函数定义如下：

D(f)＝∑y∑x|f(x+2，y)-f(x，y)|²

其中：f(x,y)表示图片对应像素点(x,y)的灰度值，D(f)为图片清晰度计算结果。

进一步的，在如上所述的实现方式中，所述图片清晰度评价算法也可以是基于Tenengrad梯度函数而设计的，Tenengrad梯度函数是通过采用Sobel算子分别提取图像水平和垂直方向的梯度值，该函数定义如下：

D(f)＝∑y∑x|G(x，y)|(G(x，y)＞T)

G(x,y)的形式如下：

其中：T是给定的边缘检测阈值，Gx和Gy分别是像素点(x,y)处Sobel水平和垂直方向边缘检测算子的卷积。

进一步的，在如上所述的实现方式中，所述图片清晰度评价算法还可以是基于Laplacian梯度函数而设计的，该函数定义如下：

D(f)＝∑y∑x|G(x，y)|(G(x，y)＞T)

其中G(x,y)是像素点(x,y)处Laplacian算子的卷积。

此外，所述图片清晰度评价算法还可以是基于SMD(灰度方差)函数、SMD2(灰度方差乘积)函数等而设计的，其具体原理这里就不在赘述。但需要注意的是，所述图片清晰度评价算法的设计可以是任意的，并不限于如上所示出的那些。

步骤222，判断所述具有人脸图像的图片的可识别度是否大于预定阈值。

在本发明中，所述预定阈值可以根据实际需要进行设定，本领域技术人员应该理解，若对所述生成目标表情的效果和质量要求越高，则预定阈值就应该设定越高。

步骤223，如果大于预定阈值，则获取所述图片，以作为目标图片。

步骤224，如果不大于预定阈值，则过滤所述图片。

综上所述，通过对所述视频中的图片进行过滤、筛选，获取清晰的具有人脸图像的目标图片，其好处在于，清晰的图片素材可以使得制作的目标表情效果更好，质量更高。

步骤230，对所述目标图片中人脸图像的表情进行实时分析，以获得所述目标图片中人脸图像表情的表情指数。

在本发明中，所述表情可以细分为16种基本表情，即乐群性、聪慧性、情绪稳定性、支配性、活泼性、是非性、敢为性、敏感性、多疑性、务实性、世故性、安然性、求变性、独立性、自制性、平和性。需要注意的，本发明中所述的表情也可以细分为其它类的基本表情，并不限于如上所述分类。

在本发明一个示例性实施例中，对所述目标图片中人脸图像的表情进行实时分析，以获得所述目标图片中人脸图像表情的表情指数可以是通过如下方式完成的：

如图4是根据图2对应实施例示出的一实施例的步骤230的细节流程图。如图4所示，步骤230包括以下步骤：

步骤231，基于所述目标图片，分别按照各基本表情类型对应的表情评价模型对所述目标图片中人脸图像的表情进行评价。

在本发明中，可以分别对各基本表情类型对应的预先训练一个表情评价模型，例如训练一个专门用于评价活泼表情的活泼程度的表情评价模型，还例如训练一个专门用于评价多疑表情的多疑程度的表情评价模型。因此，若将表情分为如前所述的16种基本表情，则应该在事先分别训练16个不同类型表情的表情评价模型。

在一个实施例的具体实现中，以训练一个专门用于评价活泼表情的活泼程度的表情评价模型为例，所述表情评价模型可以通过如下方式训练：

将由所述具有活泼表情图像的数据样本所构成集合中的每个图像数据输入所述表情评价模型，其中，所述每个图像数据上预先标记有相应的能够反映活泼表情的活泼程度的表情值A的标签，由所述表情评价模型输出相应图像中反映活泼表情的活泼程度的表情值B，将所述表情值B与相应的标签表情值A比较，如果不一致，则调整所述表情评价模型，使得输出的表情值B与相应的标签表情值A一致。

此外，本领域技术人员应该理解，分别按照各基本表情类型对应的表情评价模型对所述目标图片中人脸图像的表情进行评价即意味着每一种基本表情类型对应的表情评价模型都应该对同一张目标图片中的人脸图像的表情进行评价。

步骤232，基于所述各表情评价模型的评价，输出所述目标图片中人脸图像表情在各表情类型评价上的表情值，将所述各表情值作为目标图片中人脸图像表情的表情指数。

事实上，在所确定的每一帧图片中都有一人脸图像，而人脸图像所体现的表情是可以从多个角度来解读的，也就是说，一个人脸图像的表情可以从不同程度上理解为多种表情类型，例如，一个表情看起来十分像是活泼的，比较像是平和的，完全不像是多疑的，那么通过表情评价模型就可以将图片中的人脸图像的表情进行量化。例如90％是活泼的，50％是平和的，0％是多疑的，而“90％”、“50％”以及“0％”实际上就可以是如上所述的不同类型表情的表情评价模型所输出的相应的表情值。

本领域技术人员应该理解，如果一实施例将表情分为如前所述的16种基本表情，那么每一帧目标图片中的人脸图像在经过16个不同类型表情的表情评价模型的评价之后，应该输出有16种不同表情值

在这里，基于所述各表情评价模型的评价，输出所述目标图片中人脸图像表情在各表情类型评价上的表情值，将所述各表情值作为目标图片中人脸图像表情的表情指数。

步骤240，根据所有目标图片中人脸图像表情的表情指数，生成目标表情。

在本发明一个示例性实施例中，根据所有目标图片中人脸图像表情的表情指数，生成目标表情可以通过如下方式实现：

如图5是根据图2对应实施例示出的一实施例的步骤240的细节流程图。如图5所示，步骤240包括以下步骤：

步骤241，根据所述目标图片中人脸图像表情在各表情类型评价上的表情值，按照预设规则在所有目标图片中确定N帧目标图片，其中N为正整数。

本领域技术人员应该理解的是，如果N为1，那么如下所述生成的目标表情就是一个静态表情，此外如果N为大于1的正整数，那么如下所述生成的目标表情就是一个动态表情。

在一实施例的具体实现中，所述预设规则可以制定如下：

如图6是根据图5对应实施例示出的一实施例的步骤241的细节流程图。如图6所示，步骤241包括以下步骤：

步骤2411，分别确定每一帧目标图片中人脸图像表情在各表情类型评价上的表情值中的最大表情值，以分别将所述最大表情值对应的表情类型作为对应目标图片中人脸图像表情的主表情类型。

具体的，例如，一帧图片中的人脸图像在经过如前实施例所述的16个不同类型表情的表情评价模型的评价之后，输出有16种不同表情值，其中，所述16中不同表情类型对应的表情值如下：“乐群性：80％”、“聪慧性：75％”、“情绪稳定性：70％”、“支配性：40％”、“活泼性：95％”、“是非性：10％”、“敢为性：20％”、“敏感性：25％”、“多疑性：0％”、“务实性：60％”、“世故性：20％”、“求变性：5％”、“安然性：65％”、“独立性：70％”、“自制性：65％”、“平和性：55％”。可知，由于所述图像表情在活泼性评价上的表情值为95％，在所有表情类型评价上的表情值中最高，因此将活泼型作为所述图片中人脸图像表情的主表情类型。

步骤2412，根据人脸图像表情的主表情类型，对所有目标图片进行分类。

步骤2413，基于目标图片对应的最大表情值，分别对每一类目标图片按照降序的顺序进行排序。

步骤2414，将任意一类目标图片中最大表情值排名前N的目标图片作为确定的目标图片。

需要注意的是，所述N的数值可以根据实际需要来进行确定。

如上所述，可以理解的是，所述制定的预设规则可以是任意的，并不限于如上所示出的那些。

步骤242，将所述确定的N帧目标图片进行合成，以生成目标表情。

在本发明另一个示例性实施例中，根据所有目标图片中人脸图像表情的表情指数，生成目标表情也可以通过如下方式实现：

如图7是根据图2对应实施例示出的另一实施例的步骤240的细节流程图。如图7所示，步骤240包括以下步骤：

步骤243，响应于用户依据所有目标图片中人脸图像表情的表情指数而触发的选择指令，在所有目标图片中选定N帧图片，其中N为正整数。

用户可以根据所述目标图片的表情指数来触发选择指令选择一张或者多张目标图片。

需要注意的是，用户触发选择指令的操作方式可以是多样的，具体如下：

在一实施例的具体实现中，用户触发选择指令可以用手势和触摸的方式完成。在具体实现中，通过点触触摸屏、触摸板和触控屏等方式，来实现选择指令的触发。

在一实施例的具体实现中，用户触发选择指令也可以用语音识别的方式来触发。在具体实现中，客户端上有基于人工智能引擎(AIE，Artificial Intelligence Engine)的语音识别工具，通过该语音识别工具可以将用户的语音信息转化为文字和指令动作信息，从而实现选择指令的触发。

在一实施例的具体实现中，用户触发选择指令还可以用键盘和鼠标的方式触发。在具体实现中，可以通过敲击键盘和鼠标上的按键或按钮来实现选择指令的触发。

如上所述，可以理解的是，用户触发选择指令的实现方式可以是任意的，并不限于如上所示出的那些。

可以看出，用户依据所有目标图片中人脸图像表情的表情指数来选定目标图片的好处就在于能够进一步的满足用户制作目标表情的个性化需求，提高用户体验。

步骤244，将所述选定的N帧含有人脸图像表情的图片进行合成，以生成目标表情。

在本发明一示例性实施例中，在生成目标表情之后，还可以按照如下方法进行操作：

如图8是根据图2对应实施例示出的一实施例的步骤240之后的方法流程图，如图8所示，此方法包括以下步骤：

步骤250，响应于用户的选择指令，在预先创建的声音数据库中选定相应的音效。

步骤260，将所述选定的音效嵌入所述目标表情中，以生成具有音效的目标表情。

可以看出，将音效嵌入目标表情中去的好处就在于可以增加目标表情的趣味性，使得目标表情更加生动，从而进一步提高用户体验。

综上所述，通过截取视频中具有人脸图像的图片，并根据人脸图像表情的表情指数生成目标表情，能够简化表情的制作流程，同时保证所制作的表情更加真实生动，提高用户体验。

以下是本发明的装置实施例。

本公开还提供了一种基于视频的目标表情生成装置。图9是根据一示例性实施例示出的一种基于视频的目标表情生成装置的框图。如图9所示，装置900包括：

阅读模块910，被配置为响应于用户触发的目标表情制作指令，阅读视频；

识别模块920，被配置为识别所述视频中的人脸图像，以获取具有人脸图像的清晰的目标图片；

分析模块930，被配置为对所述获取到的目标图片中人脸图像的表情进行实时分析，以获得所述目标图片中人脸图像表情的表情指数；

生成模块940，被配置为根据所有目标图片中人脸图像表情的表情指数，生成目标表情。

据本公开的第三方面，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图10来描述根据本发明的这种实施方式的电子设备1000。图10显示的电子设备1000仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，电子设备1000以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于：上述至少一个处理单元1010、上述至少一个存储单元1020、连接不同系统组件(包括存储单元1020和处理单元1010)的总线1030。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1010执行，使得所述处理单元1010执行本说明书上述“实施例方法”部分中描述的根据本发明各种示例性实施方式的步骤。

存储单元1020可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)1021和/或高速缓存存储单元1022，还可以进一步包括只读存储单元(ROM)1023。

存储单元1020还可以包括具有一组(至少一个)程序模块1025的程序/实用工具1024，这样的程序模块1025包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1030可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1000也可以与一个或多个外部设备1200(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1000交互的设备通信，和/或与使得该电子设备1000能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1050进行。并且，电子设备1000还可以通过网络适配器1060与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1060通过总线1030与电子设备1000的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1000使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

根据本公开的第四方面，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图11所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品1100，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于视频的目标表情生成方法，其特征在于，包括：

响应于用户触发的目标表情制作指令，阅读视频；

2.根据权利要求1所述的方法，其特征在于，所述识别视频中的人脸图像，以获取具有人脸图像的清晰的目标图片，包括：

确定所述视频中每一帧具有人脸图像的图片的可识别度；

判断所述具有人脸图像的图片的可识别度是否大于预定阈值；

如果大于预定阈值，则获取所述图片，以作为目标图片；

如果不大于预定阈值，则过滤所述图片。

3.根据权利要求1所述的方法，其特征在于，所述对目标图片中人脸图像的表情进行实时分析，以获得所述目标图片中人脸图像表情的表情指数，包括：

基于所述目标图片，分别按照各基本表情类型对应的表情评价模型对所述目标图片中人脸图像的表情进行评价；

基于所述各表情评价模型的评价，输出所述目标图片中人脸图像表情在各表情类型评价上的表情值，将所述各表情值作为目标图片中人脸图像表情的表情指数。

4.根据权利要求3所述的方法，其特征在于，所述根据所有目标图片中人脸图像表情的表情指数，生成目标表情，包括：

根据所述目标图片中人脸图像表情在各表情类型评价上的表情值，按照预设规则在所有目标图片中确定N帧目标图片，其中N为正整数；

将所述确定的N帧目标图片进行合成，以生成目标表情。

5.根据权利要求4所述的方法，其特征在于，所述根据目标图片中人脸图像表情在各表情类型评价上的表情值，按照预设规则在所有目标图片中确定N帧目标图片，包括：

分别确定每一帧目标图片中人脸图像表情在各表情类型评价上的表情值中的最大表情值，以分别将所述最大表情值对应的表情类型作为对应目标图片中人脸图像表情的主表情类型；

根据人脸图像表情的主表情类型，对所有目标图片进行分类；

基于目标图片对应的最大表情值，分别对每一类目标图片按照降序的顺序进行排序；

将任意一类目标图片中最大表情值排名前N的目标图片作为确定的目标图片。

6.根据权利要求1所述的方法，其特征在于，所述根据所有目标图片中人脸图像表情的表情指数，生成目标表情，包括：

响应于用户依据所有目标图片中人脸图像表情的表情指数而触发的选择指令，在所有目标图片中选定N帧图片，其中N为正整数；

将所述选定的N帧含有人脸图像表情的图片进行合成，以生成目标表情。

7.根据权利要求1所述的方法，其特征在于，在所述根据所有目标图片中人脸图像表情的表情指数，生成目标表情之后，所述方法还包括：

响应于用户的选择指令，在预先创建的声音数据库中选定相应的音效；

将所述选定的音效嵌入所述目标表情中，以生成具有音效的目标表情。

8.一种基于视频的目标表情生成装置，其特征在于，包括：

9.一种计算机可读程序介质，其特征在于，其存储有计算机程序指令，当所述计算机程序指令被计算机执行时，使计算机执行根据权利要求1至7中任一项所述的方法。

10.一种基于视频的目标表情生成的电子设备，其特征在于，所述电子设备包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如权利要求1至7任一项所述的方法。