CN114827648A

CN114827648A - 动态表情包的生成方法、装置、设备和介质

Info

Publication number: CN114827648A
Application number: CN202210412107.1A
Authority: CN
Inventors: 刘勇; 桂祖宏; 赵芹; 王超; 钟德艮
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2022-07-29
Anticipated expiration: 2042-04-19
Also published as: CN114827648B

Abstract

本发明公开了一种动态表情包的生成方法、装置、设备和介质，所述方法包括：获取目标弹幕；确定所述目标弹幕对应的至少一目标视频帧，获取所述目标视频帧中目标人物的唇部信息；根据所述目标弹幕对所述目标人物的唇部信息进行调整，获得与所述目标弹幕对应的人物口型信息；根据所述目标弹幕、所述目标视频帧和所述人物口型信息生成动态表情包。本发明增加了动态表情包的生动感。

Description

动态表情包的生成方法、装置、设备和介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种动态表情包的生成方法、装置、设备和介质。

背景技术

弹幕是在网络上观看视频时弹出的评论性字幕或者通知字幕，一般在视频播放期间在界面中飘过，弹幕的内容为用户或者系统发送的关于视频内容的一些消息。随着多媒体技术发展，弹幕成为视频观看时必不可少的一项功能，有利于提高观众情绪表达、观众互动和用户黏性。然而现有方案中根据弹幕生成静态表情包，表情包的图像文字内容单一，无法较好的表达用户的情感。

发明内容

本发明的主要目的在于提供一种动态表情包的生成方法、装置、设备和介质，旨在解决生成的表情包无法充分表达用户的情感的问题。

为实现上述目的，本发明提供的一种动态表情包的生成方法，所述动态表情包的生成方法包括以下步骤：

获取目标弹幕；

确定所述目标弹幕对应的至少一目标视频帧，获取所述目标视频帧中目标人物的唇部信息；

根据所述目标弹幕对所述目标人物的唇部信息进行调整，获得与所述目标弹幕对应的人物口型信息；

根据所述目标弹幕、所述目标视频帧和所述人物口型信息生成动态表情包。

在一实施例中，所述根据所述目标弹幕、所述目标视频帧和所述人物口型信息生成动态表情包的步骤包括：

将所述目标视频帧与所述至少一目标视频帧对应的所述人物口型信息合成，获得合成图片帧；

根据所有的所述合成图片帧，生成动态图片；

根据所述目标弹幕替换所述动态图片中对应的视频字幕，生成动态表情包。

在一实施例中，所述根据所述目标弹幕对所述目标人物的唇部信息进行调整，获得与所述目标弹幕对应的人物口型信息的步骤包括：

将所述目标弹幕输入预设的口型生成模型，得到与所述目标弹幕对应的所述人物口型信息，所述口型生成模型由隐马尔科夫模型训练得到。

在一实施例中，所述获取目标弹幕的步骤包括：

获取视频中的初始弹幕，确定所述初始弹幕对应的视频字幕；

确定所述初始弹幕和所述视频字幕的关联度；

当所述关联度大于预设阈值时，确定所述初始弹幕为目标弹幕。

在一实施例中，所述确定所述初始弹幕和所述视频字幕的关联度的步骤包括：

确定所述初始弹幕的第一分词集合，并确定所述视频字幕的第二分词集合；

根据预设函数确定第一分词集合和第二分词集合的匹配度；

根据所述匹配度确定所述关联度。

在一实施例中，所述确定所述目标弹幕对应的至少一目标视频帧的步骤包括：

确定所述目标弹幕对应的至少两帧视频帧；

若所述至少两帧视频帧对应的人物环境相同，则确定所述至少两帧视频帧为所述目标视频帧；

若所述至少两帧视频帧中存在人物环境不相同的视频帧，则确定所述人物环境不相同的视频帧之外的视频帧为目标视频帧。

在一实施例中，所述根据所述目标弹幕、所述目标视频帧和所述人物口型信息生成动态表情包的步骤之后，还包括：

当检测到用户播放视频至所述目标弹幕发送时刻时，根据所述动态表情包替换所述目标弹幕，并将所述动态表情包显示到视频弹幕区；

当检测到用户输入的下载表情包指令时，下载所述动态表情包至终端设备。

为实现上述目的，本发明还提供一种动态表情包的生成装置，所述动态表情包的生成装置包括：

获取模块，用于获取目标弹幕；

确定模块，用于确定所述目标弹幕对应的至少一目标视频帧，获取所述目标视频帧中目标人物的唇部信息；

计算模块，用于根据所述目标弹幕对所述目标人物的唇部信息进行调整，获得与所述目标弹幕对应的人物口型信息；

生成模块，用于根据所述目标弹幕、所述目标视频帧和所述人物口型信息生成动态表情包。

为实现上述目的，本发明还提供一种动态表情包的生成设备，所述动态表情包的生成设备包括存储器、处理器以及存储在所述存储器并可在所述处理器上执行的动态表情包的生成程序，所述动态表情包的生成程序被所述处理器执行时实现如上所述的动态表情包的生成方法的各个步骤。

为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有动态表情包的生成程序，所述动态表情包的生成程序被处理器执行时实现如上所述的动态表情包的生成方法的各个步骤。

本发明提供的一种动态表情包的生成方法、装置、设备和介质，获取目标弹幕；确定目标弹幕对应的至少一目标视频帧，获取目标视频帧中目标人物的唇部信息；根据目标弹幕对目标人物的唇部信息进行调整，获得与目标弹幕对应的人物口型信息；根据目标弹幕、目标视频帧和人物口型信息生成动态表情包。通过目标弹幕生成表情包，形象地表达了用户的情感，并通过目标弹幕调整目标人物的唇部信息，使得人物唇部信息与目标弹幕相对应，给用户一种目标人物说话的感觉，增加了动态表情包的生动感。

附图说明

图1为本发明实施例涉及的动态表情包的生成设备的硬件结构示意图；

图2为本发明动态表情包的生成方法的第一实施例的流程示意图；

图3为本发明动态表情包的生成方法的不同视频帧的人物环境的示意图；

图4为本发明动态表情包的生成方法的动态表情包的示意图；

图5为本发明动态表情包的生成方法的第二实施例的步骤S40的细化流程示意图；

图6为本发明动态表情包的生成装置的逻辑结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：获取目标弹幕；确定目标弹幕对应的至少一目标视频帧，获取目标视频帧中目标人物的唇部信息；根据目标弹幕对目标人物的唇部信息进行调整，获得与目标弹幕对应的人物口型信息；根据目标弹幕、目标视频帧和人物口型信息生成动态表情包。

通过目标弹幕生成表情包，形象地表达了用户的情感，并通过目标弹幕调整目标人物的唇部信息，使得人物唇部信息与目标弹幕相对应，给用户一种目标人物说话的感觉，增加了动态表情包的生动感。

作为一种实现方案，动态表情包的生成设备可以如图1所示。

本发明实施例方案涉及的是动态表情包的生成设备，动态表情包的生成设备包括：处理器101，例如CPU，存储器102，通信总线103。其中，通信总线103用于实现这些组件之间的连接通信。

存储器102可以是高速RAM存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。如图1所示，作为一种计算机可读存储介质的存储器102中可以包括动态表情包的生成程序；而处理器101可以用于调用存储器102中存储的动态表情包的生成程序，并执行以下操作：

获取目标弹幕；

在一实施例中，处理器101可以用于调用存储器102中存储的动态表情包的生成程序，并执行以下操作：

根据所有的所述合成图片帧，生成动态图片；

确定所述初始弹幕和所述视频字幕的关联度；

根据预设函数确定第一分词集合和第二分词集合的匹配度；

根据所述匹配度确定所述关联度。

确定所述目标弹幕对应的至少两帧视频帧；

基于上述动态表情包的生成设备的硬件构架，提出本发明动态表情包的生成方法的实施例。

参照图2，图2为本发明动态表情包的生成方法的第一实施例，所述动态表情包的生成方法包括以下步骤：

步骤S10，获取目标弹幕；

具体的，弹幕为用户对当前播放的视频发布的文字评论或者表情评论等，视频字幕为当前播放的视频中人物的说话内容或者内心独白，目标弹幕为与视频字幕关联度较高的弹幕，示例性的，视频字幕为“冬天最开心的事情是堆雪人”，视频字幕对应的弹幕有“好漂亮的雪人啊”，“打雪仗去”，“好冷啊”，目标弹幕与视频字幕的关联度较高，因此，目标弹幕为“好漂亮的雪人啊”。

可选的，获取目标弹幕，可以先获取视频中的初始弹幕，其中，初始弹幕为同一时刻用户发送的多个弹幕。确定初始弹幕对应的视频字幕，可选的，根据视频字幕的开始时间和结束时间确定初始弹幕对应的视频字幕。示例性的，如下表所示：

确定初始弹幕和视频字幕的关联度；当关联度大于预设阈值时，确定初始弹幕为目标弹幕。可选的，确定初始弹幕和视频字幕的关联度，可以确定初始弹幕的第一向量，确定视频字幕的第二向量，确定第一向量和第二向量的余弦距离，根据余弦距离确定初始弹幕和视频字幕的关联度。

可选的，确定初始弹幕和视频字幕的关联度，可以先确定初始弹幕的第一分词集合，并确定视频字幕的第二分词集合。

根据预设函数确定第一分词集合和第二分词集合的匹配度；

其中，Match(m)为第一分词集合和第二分词集合之间的匹配度。m₁表示第一分词集合，

表示在第一分词集合中的x个分词中选取y个，m₂表示第二分词集合，

表示在第二分词集合中的z个分词中选取j个。根据匹配度确定关联度，当匹配度大于预设阈值，表示目标弹幕与视频字幕相匹配，目标弹幕与视频字幕的关联度较高；当匹配度小于或者等于预设阈值，表示目标弹幕与视频字幕不匹配，目标弹幕与视频字幕的关联度较低。

步骤S20，确定所述目标弹幕对应的至少一目标视频帧，获取所述目标视频帧中目标人物的唇部信息；

具体的，确定所述目标弹幕对应的至少一目标视频帧，根据目标弹幕对应的视频播放时间，确定目标弹幕对应的至少一目标视频帧，示例性的，获取视频播放时间对应的视频帧，目标弹幕1对应视频播放时间为00:39:19-00:39:29，确定00:39:09-00:40:39的视频的视频帧为目标视频帧，目标弹幕2对应视频播放时间为00:39:40-00:39:45，确定00:39:30-00:40:55的视频的视频帧为目标视频帧。可选的，在确定目标弹幕对应的多帧视频帧后，对多帧视频帧进行筛选，确定所述目标弹幕对应的至少两帧视频帧；若所述至少两帧视频帧对应的人物环境相同，则确定所述至少两帧视频帧为所述目标视频帧；若所述至少两帧视频帧中存在人物环境不相同的视频帧，则确定所述人物环境不相同的视频帧之外的视频帧为目标视频帧。如图3所示，最后一视频帧与前两视频帧中人物环境截然不同，将最后一帧视为无效视频帧过滤掉，将第一帧视频帧和第二帧视频帧作为目标弹幕的至少一目标视频帧。

获取所述目标视频帧中目标人物的唇部信息，可选的，可以基于人脸结构特征识别算法、基于颜色的识别算法和基于模型训练的识别算法，识别出目标视频帧中目标人物的唇部信息，其中唇部信息可以包括目标人物的唇部形状，唇部颜色以及唇部位置等信息。

步骤S30，根据所述目标弹幕对所述目标人物的唇部信息进行调整，获得与所述目标弹幕对应的人物口型信息；

具体的，根据目标弹幕逐帧对每一目标视频帧中的目标人物的唇部信息进行调整，获取每一目标视频帧对应的人物口型信息。人物口型信息至少包括目标人物的口型形状，口型颜色以及口型位置等信息，或者人物口型信息包括口型图片。

将目标弹幕输入预设的口型生成模型，得到与目标弹幕对应的人物口型信息，口型生成模型由隐马尔科夫模型训练得到。

可选的，采用弹幕训练HMM(Hidden Markov Model，隐马尔科夫模型)生成弹幕对应的人物口型信息，其中，隐马尔科夫模型为：

λ＝(π，M，N)；

M＝m_ij＝p(ω_i(t)|ω_j(t+1))；

N＝n_ik＝p(ω_i(t)|μ_k(t))；

其中，M为隐状态间的转移概矩阵，N为观察矩阵,ω_i为HMM的隐状态集元素,μ_k为M在t时刻的观察值集合，即训练采用的弹幕集合，并且满足0≤π_i≤1，

n为HMM模型中隐状态的个数。

隐马尔科夫模型的训练，首先初始化模型相关参数，接着求HMM的向前概率和向后概率，并且不断更新π_i、M、N参数，直到达到收敛条件，其中，收敛条件为p(v|λ)满足

在隐马尔科夫模型训练完成之后，弹幕中的每个字或者词都会对应有一个HMM模型

先通过识别视频人物唇部区域，再进行特征提取，根据弹幕匹配HMM模型

利用HMM模型

生成对应的特征向量，根据特征向量生成对应人物口型信息，最后将生成的人物口型信息与原视频帧进行合成，生成合成图片帧。

步骤S40，根据所述目标弹幕、所述目标视频帧和所述人物口型信息生成动态表情包。

具体的，根据目标弹幕、目标视频帧和人物口型信息生成动态表情包，可选的，逐帧将目标视频帧的视频字幕替换为目标弹幕，并逐帧将目标视频帧的唇部信息替换为人物口型信息，根据替换后的目标视频帧生成动态表情包。

生成动态表情包之后，可选的，当检测到用户播放视频至目标弹幕发送时刻时，根据动态表情包替换目标弹幕，并将动态表情包显示到视频弹幕区，示例性的，如图4所示，目标弹幕为“好漂亮的雪人啊”，视频字幕为“动态最开心的事情是堆雪人”，动态表情包显示在左上角，动态表情包中人物口型信息和目标视频帧中的唇部信息不相同，动态表情包中人物口型信息与目标弹幕相匹配。可选的，当检测到用户输入的下载表情包指令时，下载动态表情包至终端设备，示例性的，用户通过点击动态表情包生成下载表情包指令。

在本实施例的技术方案中，获取目标弹幕；确定目标弹幕对应的至少一目标视频帧，获取目标视频帧中目标人物的唇部信息；根据目标弹幕对目标人物的唇部信息进行调整，获得与目标弹幕对应的人物口型信息；根据目标弹幕、目标视频帧和人物口型信息生成动态表情包。通过目标弹幕生成表情包，形象地表达了用户的情感，并通过目标弹幕调整目标人物的唇部信息，使得人物唇部信息与目标弹幕相对应，给用户一种目标人物说话的感觉，增加了动态表情包的生动感。

参照图5，图5为本发明动态表情包的生成方法的第二实施例，基于第一实施例，所述步骤S40包括：

步骤S41，将所述目标视频帧与所述至少一目标视频帧对应的所述人物口型信息合成，获得合成图片帧；

步骤S42，根据所有的所述合成图片帧，生成动态图片；

步骤S43，根据所述目标弹幕替换所述动态图片中对应的视频字幕，生成动态表情包。

具体的，逐帧将目标视频帧与其对应的人物口型信息进行合成，获得合成图片帧，合成图片帧中的唇部信息被替换为人物口型信息，根据所有的合成图片帧生成动态图片，例如gif动图，并根据目标弹幕替换动态图片中对应的视频字幕，使得人物口型信息与目标弹幕相对应，给用户一种目标弹幕为目标视频帧中的目标人物说话的感觉，如图4所示，视频字幕为“没钱，一切免谈”，目标弹幕为“我就对你不客气了”，生成的动态表情包将目标人物的唇部信息调整为目标弹幕对应的人物口型信息，将视频字幕替换为目标弹幕。

在本实施例的技术方案中，将目标视频帧与至少一目标视频帧对应的人物口型信息合成，获得合成图片帧；根据所有的合成图片帧，生成动态图片；根据目标弹幕替换动态图片中对应的视频字幕，生成动态表情包。使得人物唇部信息与目标弹幕相对应，给用户一种目标人物说话的感觉，增加了动态表情包的生动感，形象地表达了用户的情感。

参照图6，本发明还提供一种动态表情包的生成装置，所述动态表情包的生成装置包括：

获取模块100，用于获取目标弹幕；

确定模块200，用于确定所述目标弹幕对应的至少一目标视频帧，获取所述目标视频帧中目标人物的唇部信息；

计算模块300，用于根据所述目标弹幕对所述目标人物的唇部信息进行调整，获得与所述目标弹幕对应的人物口型信息；

生成模块400，用于根据所述目标弹幕、所述目标视频帧和所述人物口型信息生成动态表情包。

在一实施例中，在根据所述目标弹幕、所述目标视频帧和所述人物口型信息生成动态表情包方面，所述生成模块400具体用于：

根据所有的所述合成图片帧，生成动态图片；

在一实施例中，在根据所述目标弹幕对所述目标人物的唇部信息进行调整，获得与所述目标弹幕对应的人物口型信息，所述计算模块300具体用于：

在一实施例中，在获取目标弹幕方面，所述获取模块100具体用于：

确定所述初始弹幕和所述视频字幕的关联度；

在一实施例中，在确定所述初始弹幕和所述视频字幕的关联度方面，所述获取模块100具体用于：

根据预设函数确定第一分词集合和第二分词集合的匹配度；

根据所述匹配度确定所述关联度。

在一实施例中，在确定所述目标弹幕对应的至少一目标视频帧方面，所述确定模块200具体用于：

确定所述目标弹幕对应的至少两帧视频帧；

在一实施例中，在根据所述目标弹幕、所述目标视频帧和所述人物口型信息生成动态表情包之后，所述生成模块400具体用于：

本发明还提供一种动态表情包的生成设备，所述动态表情包的生成设备包括存储器、处理器以及存储在所述存储器并可在所述处理器上执行的动态表情包的生成程序，所述动态表情包的生成程序被所述处理器执行时实现如上实施例所述的动态表情包的生成方法的各个步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有动态表情包的生成程序，所述动态表情包的生成程序被处理器执行时实现如上实施例所述的动态表情包的生成方法的各个步骤。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、系统、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、系统、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、系统、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例系统可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，停车管理设备，空调器，或者网络设备等)执行本发明各个实施例所述的系统。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种动态表情包的生成方法，其特征在于，所述动态表情包的生成方法包括：

获取目标弹幕；

2.如权利要求1所述的动态表情包的生成方法，其特征在于，所述根据所述目标弹幕、所述目标视频帧和所述人物口型信息生成动态表情包的步骤包括：

根据所有的所述合成图片帧，生成动态图片；

3.如权利要求1所述的动态表情包的生成方法，其特征在于，所述根据所述目标弹幕对所述目标人物的唇部信息进行调整，获得与所述目标弹幕对应的人物口型信息的步骤包括：

4.如权利要求1所述的动态表情包的生成方法，其特征在于，所述获取目标弹幕的步骤包括：

确定所述初始弹幕和所述视频字幕的关联度；

5.如权利要求4所述的动态表情包的生成方法，其特征在于，所述确定所述初始弹幕和所述视频字幕的关联度的步骤包括：

根据预设函数确定第一分词集合和第二分词集合的匹配度；

根据所述匹配度确定所述关联度。

6.如权利要求1所述的动态表情包的生成方法，其特征在于，所述确定所述目标弹幕对应的至少一目标视频帧的步骤包括：

确定所述目标弹幕对应的至少两帧视频帧；

7.如权利要求1所述的动态表情包的生成方法，其特征在于，所述根据所述目标弹幕、所述目标视频帧和所述人物口型信息生成动态表情包的步骤之后，还包括：

8.一种动态表情包的生成装置，其特征在于，所述动态表情包的生成装置包括：

获取模块，用于获取目标弹幕；

9.一种动态表情包的生成设备，其特征在于，所述动态表情包的生成设备包括存储器、处理器以及存储在所述存储器并可在所述处理器上执行的动态表情包的生成程序，所述动态表情包的生成程序被所述处理器执行时实现如权利要求1-7任一项所述的动态表情包的生成方法的各个步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有动态表情包的生成程序，所述动态表情包的生成程序被处理器执行时实现如权利要求1-7任一项所述的动态表情包的生成方法的各个步骤。