CN113327308A

CN113327308A - 表情包图片的生成方法和装置

Info

Publication number: CN113327308A
Application number: CN202110591776.5A
Authority: CN
Inventors: 刘伟科; 郐洪楠; 韩卫召; 沈俊杰
Original assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-08-31

Abstract

本公开涉及一种表情包图片的生成方法和装置，涉及计算机技术领域。该生成方法包括：对视频流中的目标进行行为识别，确定每一个行为识别结果的多帧相关图像；根据各相关图像，确定每一个行为识别结果的表征图像；根据表征图像，生成表情包图片。

Description

表情包图片的生成方法和装置

技术领域

本公开涉及计算机技术领域，特别涉及一种表情包图片的生成方法、表情包图片的生成装置和非易失性计算机可读存储介质。

背景技术

目前，表情包持续发热，成为了聊天中不可缺少的元素据统计，任何一段超过20句文字往来的对话，包含表情包的比例不低于90％。将表情包应用到不同的领域，能够提高沟通效果和沟通效率。

在相关技术中，用户需要下载、保存别人制作的表情包，或者手动制作表情包。

发明内容

本公开的发明人发现上述相关技术中存在如下问题：表情包制作难度大、效率低。

鉴于此，本公开提出了一种表情包图片的生成技术方案，能够自动生成表情包，从而降低表情包的制作难度，提高制作效率。

根据本公开的一些实施例，提供了一种表情包图片的生成方法，包括：对视频流中的目标进行行为识别，确定每一个行为识别结果的多帧相关图像；根据各相关图像，确定每一个行为识别结果的表征图像；根据表征图像，生成表情包图片。

在一些实施例中，所述根据各相关图像，确定每一个行为识别结果的表征图像包括：检测每一个行为识别结果的各相关图像之间的差异程度；根据差异程度的检测结果，确定所述表征图像。

在一些实施例中，所述根据差异程度的检测结果，确定所述关键图像包括：在每一个行为识别结果的俩帧相关图像之间的差异程度小于相似度阈值的情况下，将该两帧相关图像确定为重复图像对；对所述重复图像对进行清晰度检测；根据清晰程度检测结果，确定所述表征图像。

在一些实施例中，所述根据表征图像，生成表情包图片包括：根据所述每一个行为识别结果的表征图像在所述视频流中的时间信息、与其他行为识别结果的表征图像的差异程度、与样本图像的匹配程度的至少一项，在各表征图像中确定关键帧图像；根据所述关键帧图像，生成所述表情包图片。

在一些实施例中，所述在各表征图像中确定关键帧图像包括：将所述时间信息与时间节点条件匹配的表征图像，确定为所述关键帧图像。

在一些实施例中，所述在各表征图像中确定关键帧图像包括：检测每一个行为识别结果的表征图像与各其他行为识别结果的表征图像之间的差异程度；按照差异程度从高到低的顺序，选择至少一个表征图像作为关键帧图像。

在一些实施例中，所述在各表征图像中确定关键帧图像包括：将所述各表征图像的图像特征与所述样本图像的图像特征进行匹配；将匹配程度高于匹配阈值的表征图像，确定为所述关键帧图像。

在一些实施例中，所述对视频流中的目标进行行为识别，确定每一个行为识别结果的多帧相关图像包括：在所述视频流中，确定所述每一个行为识别结果的开始帧图像和结束帧图像；在所述开始帧图像、所述结束帧图像、所述开始帧图像和所述结束帧图像之间的至少一帧中间帧图像中，确定所述多帧相关图像。

在一些实施例中，所述根据表征图像，生成表情包图片包括：根据表征图像及其各相邻帧图像，生成动态的表情包图片。

在一些实施例中，生成方法还包括：保存直播采集软件采集的直播多媒体流，作为所述视频流。

根据本公开的另一些实施例，提供一种表情包图片的生成装置，包括：识别单元，用于对视频流中的目标进行行为识别，确定每一个行为识别结果的多帧相关图像；确定单元，用于根据各相关图像，确定每一个行为识别结果的表征图像；生成单元，用于根据表征图像，生成表情包图片。

在一些实施例中，所述识别单元检测每一个行为识别结果的各相关图像之间的差异程度，根据差异程度的检测结果，确定所述表征图像。

在一些实施例中，所述识别单元在每一个行为识别结果的俩帧相关图像之间的差异程度小于相似度阈值的情况下，将该两帧相关图像确定为重复图像对，对所述重复图像对进行清晰度检测，根据清晰程度检测结果，确定所述表征图像。

根据本公开的又一些实施例，提供一种表情包图片的生成装置，包括：存储器；和耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器装置中的指令，执行上述任一个实施例中的表情包图片的生成方法。

根据本公开的再一些实施例，提供一种非易失性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一个实施例中的表情包图片的生成方法。

在上述实施例中，能够通过识别视频流中的目标行为，自动生成表情包。这样，能够降低表情包的制作难度，提高制作效率。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1示出本公开的表情包图片的生成方法的一些实施例的流程图；

图2示出本公开的表情包图片的生成方法的一些实施例的示意图；

图3a示出本公开的表情包图片的生成方法的另一些实施例的示意图；

图3b示出本公开的表情包图片的生成方法的另一些实施例的示意图；

图4a示出本公开的表情包图片的生成方法的又一些实施例的示意图；

图4b示出本公开的表情包图片的生成方法的又一些实施例的示意图；

图4c示出本公开的表情包图片的生成方法的又一些实施例的示意图；

图5示出本公开的表情包图片的生成方法的再一些实施例的示意图；

图6示出本公开的表情包图片的生成方法的再一些实施例的示意图；

图7示出本公开的表情包图片的生成方法的再一些实施例的示意图；

图8示出本公开的表情包图片的生成装置的一些实施例的框图；

图9示出本公开的表情包图片的生成装置的另一些实施例的框图；

图10示出本公开的表情包图片的生成装置的又一些实施例的框图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

如前所述，表情包可以应用到各种不同的领域。例如，将表情包与视频技术结合起来，可以快速回溯视频内容，从而方便视频的推广和传播。

但是，一套表情包的制作需要有众多不同的表情图片和情绪图片，相比于制作一个表情图片，做出一套表情包图片的难度更大，效率更低。

针对上述技术问题，本公开提出了自动生成表情包图片的技术方案，能够降低表情包的制作难度，提高制作效率。本公开的技术方案能够应用到众多领域，解决各领域相应的技术问题。

例如，直播领域面临着直播凝聚低、一次性、传播差等固有问题，导致直播效果差。与笔记、摄影不同，当主播直播结束后，很难把直播内容推给其他人观看，直播结束就失去了价值。

在这种情况下，利用本公开的技术方案将表情包生成技术与直播流结合，可以在用户全程无感知、不影响直播效果的情况下，生成表情包图片。这样，，额能够快速回溯直播内容，扩大直播视频内容的推广和传播范围，从而提高直播热度。

例如，可以通过下面的实施例实现本公开的技术方案。

图1示出本公开的表情包图片的生成方法的一些实施例的流程图。

如图1所示，在步骤S110中，对视频流中的目标进行行为识别，确定每一个行为识别结果的多帧相关图像。

在一些实施例中，保存直播采集软件采集的直播多媒体流，作为视频流。例如，可以通过图2的方式获取直播多媒体流。

图2示出本公开的表情包图片的生成方法的一些实施例的示意图。

如图2所示，在步骤101中，用户在直播平台注册账号，申请直播间并进行直播准备。

例如，直播准备可以包括在本地设置一个直播采集设备(如摄像头、麦克风、手机等)，用户处于直播采集设备前。

步骤102包括：步骤102.1，用户开始直播时，打开直播采集软件；步骤102.2，直播采集软件调用步骤101中的本地采集设备采集直播流；步骤102.3，将采集结果上传至直播服务器。

在步骤103中，直播服务器在鉴权成功的情况下，接收并保存主播采集软件采集到的直播多媒体流，然后在外层封装一个直播服务层用于对外服务；直播服务器在鉴权失败的情况下，丢弃直播多媒体流。

在步骤104中，主播、观众在直播间观看直播时，客户端软件通过申请直播服务层，获取直播多媒体流；客户端软件获取到直播多媒体流后，调用本地解码器进行解码播放。

在一些实施例中，在视频流中，确定每一个行为识别结果的开始帧图像和结束帧图像；在开始帧图像、结束帧图像、开始帧图像和结束帧图像之间的至少一帧中间帧图像中，确定多帧相关图像。

在获取了视频流，并识别了其中各行为的相关图像的情况下，可以继续通过图1的其他步骤生成表情包图片。

在步骤S120中，根据各相关图像，确定每一个行为识别结果的表征图像。

在一些实施例中，检测每一个行为识别结果的各相关图像之间的差异程度；根据差异程度的检测结果，确定表征图像。

例如，在每一个行为识别结果的俩帧相关图像之间的差异程度小于相似度阈值的情况下，将该两帧相关图像确定为重复图像对；对重复图像对进行清晰度检测；根据清晰程度检测结果，确定表征图像。

在一些实施例中，可以通过图3a的实施例确定表征图像。

图3a示出本公开的表情包图片的生成方法的另一些实施例的示意图。

如图3所示，在步骤201中，对直播流进行行为识别。例如，可以利用iDT(improvedDense Trajectories，密集轨迹)算法、机器学习模型等行为识别方法处理直播流，进行行为识别。

在一些实施例中，在步骤201.1中，根据摄像机位固定、人体轨迹简单等直播的特点，以及想要的输出内容，确定采用密集轨迹算法作为行为识别算法。

在一些实施例中，在步骤201.2中，可以制定一组规则列表，用于记录行为识别方法识别的各行为类型。

在一些实施例中，可以通过图3b中的实施例进行行为识别。

图3b示出本公开的表情包图片的生成方法的另一些实施例的示意图。

如图3b所示，在步骤201.3中，直播开始后，服务端采集到直播流，通过密集轨迹算法将直播流中的行为归集到步骤201.2制定的行为类型之一。

例如，在直播流中识别出用户行为1、2、3…等多个用户行为，同时识别出每一个用户行为所属的行为类型。

在一些实施例中，可以采用面部识别技术，按照情绪分类法识别直播流中的用户情绪作为用户行为，并确定相关图像。从而，确定集直播过程中有代表性的帧图像作为表征图像。

在步骤201.4中，根据每个用户行为在直播流中的结束阶段，服务端回溯用户行为的从开始阶段到结束阶段的各帧相关图像，包括开始帧图像(首帧)、中间帧图像、结束帧图像(末帧)。

例如，可以按照预设的时间间隔，采集直播流中开始帧图像和结束帧图像之间的帧图像(如中间A、中间B等)，作为中间帧图像。

在步骤201.5中，保存上述采集到的用户行为的各帧相关图像，做为该用户行为的直播图片组。

例如，可以按照如下的数据结构保存相关图像：{positiveTime,imageUrl,actionType}。positiveTime是相对直播开始时间的偏移量，imageUrl是相关图像的图片地址，actionType是相关图像对应的上述制定的规则列表中的用户行为类型。该数据结构用于关键帧图像的选取。

在一些实施例中，如果需要生成动态表情包图像(如gif格式的图片)，则保存视频流中连续的多帧图像。数据结构中的数据按照这些连续帧的起始帧图像(即相关图像)保存。

在确定了各帧相关图像后，可以通过图3a中的其余步骤确定表征图像。

在步骤202中，对各帧相关图像进行去留判断，确定各用户行为的表征图像。例如，步骤202可以包括步骤202.1，重复判断和步骤202.2，清晰度判断两步判断。

在步骤202.1中，进行重复判断。

在步骤202.1.1中，通过图像二值化处理，以判断相关图像是否重复。

在步骤202.1.2中，对于各帧相关图像，按照视频流中的时间顺序，可以分为新图和旧图；判断新图与所有旧图的差异度。

在一些实施例中，对于一张旧图，与新图差异度小于10％，则认为重复。例如，对于1920×1080像素的相关图像，共有2073600个像素点，如果与另一张相关图像具有小于207360个二值化像素点不同，则认为两图重复。

在202.1.3中，如果判断两帧相关图不重复，则保存两帧相关图像到相应的用户行为的直播图片组；如果判断两帧相关图重复，则执行步骤202.2。

在步骤202.2中，进行清晰度判断。

在步骤202.2.1中，考虑到计算速度和效果，采用Brenner梯度函数判断两帧相关图像的清晰程度。Brenner梯度函数的实现简单，与肉眼判断结果接近。

在步骤202.2.2中，对比上一步得到的两帧相关图像的清晰程度，如果旧图更清晰，则丢弃新图，并保存旧图作为相应用户行为的表征图像；如果新图更清晰，则删除旧图，并保存新图作为相应用户行为的表征图像。

在确定了各用户行为的表征图像后，可以利用图1中的其他步骤生成表情包图片。

在步骤S130中，根据表征图像，生成表情包图片。例如，可以根据预设的策略从各表征图像中确定关键帧图像，再以关键帧图像为基础，生成表情包图片。

在一些实施例中，根据所述每一个行为识别结果的表征图像在所述视频流中的时间信息、与其他行为识别结果的表征图像的差异程度、与样本图像的匹配程度的至少一项，在各表征图像中确定关键帧图像；根据关键帧图像，生成表情包图片。

在一些实施例中，将各表征图像的图像特征与样本图像的图像特征进行匹配；将匹配程度高于匹配阈值的表征图像，确定为关键帧图像。例如，可以通过图4a的实施例确定关键帧图像。

图4a示出本公开的表情包图片的生成方法的又一些实施例的示意图。

如图4a所示，在步骤301中，利用匹配策略确定关键帧图像。例如，可以预设一组样本图像作为模板表情或模板动作，寻找与其最匹配的主播表情或动作的表征图像。

在步骤301.1中，可以通过当前热门的、标准的等诸多业务标准制作模板表情和模板动作。

例如，模板制作方式包括UI(用户界面)手绘、排行榜等。获取原始模板图片组(记为{template_t})后，进行图像特征提取(记为{templateChar_t})。

在步骤301.2中，按照同样的方式提取直播图片组(记为{image_t})中各表征图像的图像特征(记为{imageChar_t})。

在步骤301.3中，循环处理{templateChar_t}中的每个元素templateChar_n，在{imageChar_t}中寻找与其具有最大相似度的特征imageChar_n，从而定位到{image_t}中的表征图像image_n，作为关键帧图像

在步骤301.4中，收集上述定位到的表征图像，生成表情包图片组。

在一些实施例中，图像特征提取包括颜色特征提取、纹理特征提取、形状特征提取、空间关系特征提取等。例如，可以选用空间关系特征提取，作为图片相似度判断依据。

例如，可以对图像进行自动分割，分割出多个目标之间的相互的空间位置或相对方向关系。这些关系也可分为连接或邻接关系、交叠或重叠关系、包含或包容关系等。

例如，根据直播镜头的固定性，空间位置可以采用相对空间位置，表述出目标的相对位置即可。

例如，在处理每个目标的姿态估计问题时，根据直播的特性，选择单目视觉姿态估计，并通过基于模型的姿态估计方法实现。

在一些实施例中，根据估计的姿态及相对空间位置，可以提取出图片的空间关系特征。

例如，空间关系特征可以为人像与桌上饰物的相对位置、头部与身体的相对位置、头部与桌子的相对位置等。这种空间关系特征与日常描述方式最为接近，如主播左手撑头，右手拿水杯喝水，头上仰一些角度，整个身体向后靠在椅子上。

在一些实施例中，检测每一个行为识别结果的表征图像与各其他行为识别结果的表征图像之间的差异程度；按照差异程度从高到低的顺序，选择至少一个表征图像作为关键帧图像。例如，可以通过图4b的实施例确定关键帧图像。

图4b示出本公开的表情包图片的生成方法的又一些实施例的示意图。

如图4b所示，在步骤302中，根据差异策略，选择相互间差异最大的一组图片作为关键帧图像。

在步骤302.1中，通过图像二值化，提取直播图片组(记为{image_t})中各表征图像的二值化结果(记为{imageWB_t})。{imageWB_t}中的任意元素imageWB_n的像素可以表达为由0、1组成的向量。

在步骤302.2中，计算{imageWB_t}中任意两个元素的像素差异数，记为如下数据结构{imageWB_n1,imageWB_n2,charCount}。

例如，元素imageWB₁为[0,1,1,0,1,0,1]，元素imageWB₂为[0,0,1,1,0,0,0]，则它们之间的差异数为4。

在步骤302.3中，全部计算完成后，取前n个最大的charCount对应的数据结构(差异数最大的n个表征图像)，imageWB_n对应的image_n即为所选的关键帧图像。

在步骤302.4中，收集上述关键帧图像，形成表情包图片组。

例如，直播图片组中包含的表征图像包括图片1～图片5；通过图片1～图片5之间的差异度判断，取前两个差异度最大的图片(图片2、图片5)作为关键帧图像。

在一些实施例中，将时间信息与时间节点条件匹配的表征图像，确定为关键帧图像。

例如，时间节点条件为预设的视频流中帧图像对应的时间与视频流起始时间的时间间隔，时间信息为表征图像与视频流起始时间的时间间隔。

例如，时间节点条件为预设的时间间隔，时间信息为表征图像与视频流起始时间的时间间隔。如，每隔10分钟选取一帧图像作为关键帧图像。

图4c示出本公开的表情包图片的生成方法的又一些实施例的示意图。

如图4c所示，在步骤303中，根据时间策略，按照直播中的固定时间间隔选取一组表征图像作为关键帧图像。

在步骤303.1中，指定选取关键帧图像的时间间隔，如10分钟。

在步骤303.2中，，每帧表征图像都保存了其在视频流中相应的时间信息。按照上述指定的时间间隔，取与该时间间隔对应的时间节点最接近的表征图像作为关键帧图像。

例如：图1的时间信息为3分钟，图2的时间信息为3分15秒，图3的时间信息为3分30秒，设定的时间间隔为3分20秒。在这种情况下，将图2确定为关键帧图像。

在步骤303.3中，收集上述关键帧图像，形成表情包图片组。

在一些实施例中，直播图片组中包含的表征图像包括距离视频流起始时间间隔为5分钟的图片、10分钟的图片、15分钟的图片、20分钟的图片、25分钟的图片。时间节点条件为时间间隔为10分钟。

在这种情况下，选择10分钟的图片、20分钟的图片作为关键帧图像。

在步骤304中，无论上述采用的哪种识别方法、哪种优选方案(策略)，选出的关键帧图像都进行物理、内存存储。例如，存储方式包括云盘、物理服务器、移动存储设备等。

在一些实施例中，根据表征图像及其各相邻帧图像，生成动态的表情包图片。例如，可以以关键帧图像为起点，在视频流中选取其后的连续多帧图像作为生成动态表情包图片的素材；根据关键帧图像和连续多帧图像生成动态表情包图片。

图5示出本公开的表情包图片的生成方法的再一些实施例的示意图。

如图5所示，在步骤401中，判断生成的表情包图片静态图片格式(如jpg、jpeg、png等)还是动态图片格式(如gif等)。例如，可以通过文件后缀判断，将静态图片格式、动态图片格式分别打包。

在步骤402中，预设目标平台(如各种社交如阿健急案)，根据不同的目标平台，选择合适的打包格式。

在步骤403中，根据步骤402选择的打包格式，选用不同的打包工具。例如，打包格式包括zip、gzip、rar等。

在步骤404中，生成动态的、静态的、多平台的不同表情包。

在步骤405中，使用web技术(如java-linux-tomcat-springboot等)提供对表情包的列表展示、详情查询、修改、下载、删除等服务。

图6示出本公开的表情包图片的生成方法的再一些实施例的示意图。

如图6所示，在步骤501中，通过步骤405提供的服务，用户可以查询表情包中的表情图列表，并选择需要修改的表情图片。

在步骤502中，用户选择表情包图片后，可以在前端页面进行文案编辑、图片叠加等，并查看修改后效果。

在步骤502.1中，前端可以使用绝对定位方式(以底图左上角为定位0,0点，向第四象限每横向移动一个像素记为x+1，每纵向移动一个像素记为y+1)，将文字和效果图片定位至指定的位置并预览展示。

在步骤502.2中，用户点击保存时，如果是效果图，则进行步骤502.2.1；如果是文字，则进行步骤502.2.2。

在步骤502.2.1中，图片处理方式为二步式：先进行图片上传，服务器端返回图片地址(imgUrl)；前端二次请求服务端，以数据格式{imgUrl:xxxxxx，x:123，y:456}传输。

imgUrl是图片上传时服务端返回，x为效果图片绝对定位的x坐标，y为效果图片绝对定位的y坐标。

在步骤502.2.2中，文字处理方式为一步式，直接以数据格式{text:xxxxx，x:123，y:456，size:18，color:1d2e3a，font:微软雅黑}进行请求。

text为用户输入的文字，x为文字绝对定位的x坐标，y为文字绝对定位的y坐标，size为文字大小，color为文字rgb颜色，font为文字字体。

其他描述文字属性的内容也在权项内。例如i:true/false-是否斜体，b:true/false-是否加粗。

在步骤503中，后端服务器基于原表情图片、效果图片或文字、进行绝对定位并加工。

在一些实施例中，图片加工方案有很多种，java原生ImageIO或开源框架Ffmpeg均可完成。例如，可以使用java/Ffmpeg后具有唯一技术解。

例如，ffmpeg合成命令的核心为：ffmpeg-i input-i logo-filter_complex'overlay＝10:main_h-overlay_h-10'output。

ffmpeg为操作命令，-i input为原表情图片路径，-i logo为效果图片-filter_complex为覆盖命令，overlay为覆盖偏移量(对应上述x、y)，output为生成的新表情图片地址。

在步骤504中，使用步骤503生成的表情包图片，替换原表情包中对应的表情图片，完成人工调整。

在一些实施例中，用户可以下载表情包，导入社交媒体并使用。

例如，在步骤601中，可以在下载表情包时加入直播平台logo(标志。

在步骤602中，可以在分享时增加直播平台域名地址。

在步骤603中，可以在下载时增加频次限制、收费策略等。

在步骤604中，可以在下载时增加版权、隐私确认书等。

步骤601～604为可选步骤，没有执行顺序。

图7示出本公开的表情包图片的生成方法的再一些实施例的示意图。

如图7所示，本公开的系统包括用户开启直播模块100、识别模块200、表情图生成模块300、表情包生成模块400、人工调整模块500、下载和使用模块600。

在一些实施例中，模块100、模块600的相关流程为用户视角，包括正常直播、直播后下载使用表情包；模块100、模块500的相关流程为服务器对外服务，包括提供直播服务，提供表情包服务；模块200、模块300、模块400的相关流程为服务器后端处理逻辑，包括直播识别、表情图片生成、表情包生成。

例如，用户开启直播模块100是输入单元，依赖目前直播平台的相关功能。户开启直播模块100可以执行上述任一个实施例中的步骤101～104。

例如，识别模块200作用是按照指定规则实时识别直播中的主播行为；生成图片并进行去留判断，保存留下的静图/动图。识别模块200可以执行上述任一个实施例中的步骤201～202。

例如，表情图生成模块300将生成的表情图片进行优选和保存。表情图生成模块300可以执行上述任一个实施例中的步骤301～304。可以采用上述任一个实施例中的优选策略确定关键帧图像。优选结束的表情图片存储于表情图片库中，供模块400使用。

例如，表情包生成模块400将上述生成的表情包图片制作成表情包，并提供下载功能。表情包生成模块400可以执行上述任一个实施例中的步骤401～405。

例如，人工调整模块500为可选模块，用于为用户提供对表情包进行二次处理、增加文字、效果等功能。人工调整模块500可以执行上述任一个实施例中的步骤501～504。

例如，下载和使用模块600为用户提供下载表情包、导入社交媒体使用等功能。下载和使用模块600可以执行上述任一个实施例中的步骤601～604。

图8示出本公开的表情包图片的生成装置的一些实施例的框图。

如图8所示，表情包图片的生成装置8包括识别单元81、确定单元82、生成单元83。

识别单元81对视频流中的目标进行行为识别，确定每一个行为识别结果的多帧相关图像。

确定单元82根据各相关图像，确定每一个行为识别结果的表征图像。

生成单元83根据表征图像，生成表情包图片。

在一些实施例中，识别单元81检测每一个行为识别结果的各相关图像之间的差异程度，根据差异程度的检测结果，确定表征图像。

在一些实施例中，识别单元81在每一个行为识别结果的俩帧相关图像之间的差异程度小于相似度阈值的情况下，将该两帧相关图像确定为重复图像对；对重复图像对进行清晰度检测，根据清晰程度检测结果，确定表征图像。

在一些实施例中，确定单元82根据每一个行为识别结果的表征图像在视频流中的时间信息、与其他行为识别结果的表征图像的差异程度、与样本图像的匹配程度的至少一项，在各表征图像中确定关键帧图像；生成单元83根据关键帧图像，生成表情包图片。

例如，确定单元82将时间信息与时间节点条件匹配的表征图像，确定为关键帧图像。

例如，确定单元82检测每一个行为识别结果的表征图像与各其他行为识别结果的表征图像之间的差异程度；按照差异程度从高到低的顺序，选择至少一个表征图像作为关键帧图像。

例如，确定单元82将各表征图像的图像特征与样本图像的图像特征进行匹配；将匹配程度高于匹配阈值的表征图像，确定为关键帧图像。

在一些实施例中，识别单元81在所述视频流中，确定每一个行为识别结果的开始帧图像和结束帧图像，在开始帧图像、结束帧图像、开始帧图像和结束帧图像之间的至少一帧中间帧图像中，确定多帧相关图像。

在一些实施例中，生成单元83根据表征图像及其各相邻帧图像，生成动态的表情包图片。

在一些实施例中，识别单元81保存直播采集软件采集的直播多媒体流，作为视频流。

图9示出本公开的表情包图片的生成装置的另一些实施例的框图。

如图9所示，该实施例的表情包图片的生成装置9包括：存储器91以及耦接至该存储器91的处理器92，处理器92被配置为基于存储在存储器91中的指令，执行本公开中任意一个实施例中的表情包图片的生成方法。

其中，存储器91例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。

如图10所示，该实施例的表情包图片的生成装置10包括：存储器1010以及耦接至该存储器1010的处理器1020，处理器1020被配置为基于存储在存储器1010中的指令，执行前述任意一个实施例中的表情包图片的生成方法。

存储器1010例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

表情包图片的生成装置10还可以包括输入输出接口1030、网络接口1040、存储接口1050等。这些接口1030、1040、1050以及存储器1010和处理器1020之间例如可以通过总线1060连接。其中，输入输出接口1030为显示器、鼠标、键盘、触摸屏、麦克、音箱等输入输出设备提供连接接口。网络接口1040为各种联网设备提供连接接口。存储接口1050为SD卡、U盘等外置存储设备提供连接接口。

本领域内的技术人员应当明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

至此，已经详细描述了根据本公开的表情包图片的生成方法、表情包图片的生成装置和非易失性计算机可读存储介质。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

可能以许多方式来实现本公开的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims

1.一种表情包图片的生成方法，包括：

对视频流中的目标进行行为识别，确定每一个行为识别结果的多帧相关图像；

根据各相关图像，确定每一个行为识别结果的表征图像；

根据表征图像，生成表情包图片。

2.根据权利要求1所述的生成方法，其中，所述根据各相关图像，确定每一个行为识别结果的表征图像包括：

检测每一个行为识别结果的各相关图像之间的差异程度；

根据差异程度的检测结果，确定所述表征图像。

3.根据权利要求2所述的生成方法，其中，所述根据差异程度的检测结果，确定所述关键图像包括：

在每一个行为识别结果的俩帧相关图像之间的差异程度小于相似度阈值的情况下，将该两帧相关图像确定为重复图像对；

对所述重复图像对进行清晰度检测；

根据清晰程度检测结果，确定所述表征图像。

4.根据权利要求1所述的生成方法，其中，所述根据表征图像，生成表情包图片包括：

根据所述每一个行为识别结果的表征图像在所述视频流中的时间信息、与其他行为识别结果的表征图像的差异程度、与样本图像的匹配程度的至少一项，在各表征图像中确定关键帧图像；

根据所述关键帧图像，生成所述表情包图片。

5.根据权利要求4所述的生成方法，其中，所述在各表征图像中确定关键帧图像包括：

将所述时间信息与时间节点条件匹配的表征图像，确定为所述关键帧图像。

6.根据权利要求4所述的生成方法，其中，所述在各表征图像中确定关键帧图像包括：

检测每一个行为识别结果的表征图像与各其他行为识别结果的表征图像之间的差异程度；

按照差异程度从高到低的顺序，选择至少一个表征图像作为关键帧图像。

7.根据权利要求4所述的生成方法，其中，所述在各表征图像中确定关键帧图像包括：

将所述各表征图像的图像特征与所述样本图像的图像特征进行匹配；

将匹配程度高于匹配阈值的表征图像，确定为所述关键帧图像。

8.根据权利要求1所述的生成方法，其中，所述对视频流中的目标进行行为识别，确定每一个行为识别结果的多帧相关图像包括：

在所述视频流中，确定所述每一个行为识别结果的开始帧图像和结束帧图像；

在所述开始帧图像、所述结束帧图像、所述开始帧图像和所述结束帧图像之间的至少一帧中间帧图像中，确定所述多帧相关图像。

9.根据权利要求1所述的生成方法，其中，所述根据表征图像，生成表情包图片包括：

根据表征图像及其各相邻帧图像，生成动态的表情包图片。

10.根据权利要求1-9任一项所述的生成方法，还包括：

保存直播采集软件采集的直播多媒体流，作为所述视频流。

11.一种表情包图片的生成装置，包括：

识别单元，用于对视频流中的目标进行行为识别，确定每一个行为识别结果的多帧相关图像；

确定单元，用于根据各相关图像，确定每一个行为识别结果的表征图像；

生成单元，用于根据表征图像，生成表情包图片。

12.根据权利要求11所述的生成装置，其中，

所述识别单元检测每一个行为识别结果的各相关图像之间的差异程度，根据差异程度的检测结果，确定所述表征图像。

13.根据权利要求12所述的生成装置，其中，

所述识别单元在每一个行为识别结果的俩帧相关图像之间的差异程度小于相似度阈值的情况下，将该两帧相关图像确定为重复图像对，对所述重复图像对进行清晰度检测，根据清晰程度检测结果，确定所述表征图像。

14.一种表情包图片的生成装置，包括：

存储器；和

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行权利要求1-10任一项所述的表情包图片的生成方法。

15.一种非易失性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-10任一项所述的表情包图片的生成方法。