CN113177994B

CN113177994B - 基于图文语义的网络社交表情包合成方法、电子设备和计算机可读存储介质

Info

Publication number: CN113177994B
Application number: CN202110320523.4A
Authority: CN
Inventors: 谢诚; 李小瑞; 汪玉金; 袁乾峰; 李宾
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2022-09-06
Anticipated expiration: 2041-03-25
Also published as: CN113177994A

Abstract

本发明公开了一种基于图文语义的网络社交表情包合成方法、电子设备和计算机可读存储介质，所述方法包括以下步骤：步骤1，采集表情包图片，对其进行语义标注；步骤2，将语义标注转换为文本描述向量和词特征向量；步骤3，对词特征向量进行处理得到增广向量；步骤4，训练DetailGAN_j网络得到各增广向量对应的内容块；步骤5，对各内容块进行下采样得到联合向量，对联合向量进行处理得到增广向量；步骤6，利用增广向量训练JoinGAN网络，合成表情包图片；本发明能够利用较少的样本图片训练合成模型，用该模型合成的表情包图片与文本语义相似度较高，更加准确。

Description

基于图文语义的网络社交表情包合成方法、电子设备和计算机可读存储介质

技术领域

本发明属于自然语言处理和计算机视觉技术领域，涉及一种基于图文语义的网络社交表情包合成方法、电子设备和计算机可读存储介质。

背景技术

随着互联网的发展和网络聊天工具的盛行，衍生出了一种新兴文化—表情包文化，网络表情包符合人类最本能的表达方式和情感需求，对互联网的视觉文化、群体认同与传播、话语体系更新都有着潜移默化的影响和推动，在社会减压方面起到了很大的积极作用，近几年来，斗图热度不断，用户规模持续走高，产业规模持续扩大，吸引着大量的资本和人才加盟。

近年来开发人员应市场需求开发了各种制图、斗图应用程序，各种制图、斗图工具多达数十种，但这些应用程序都千篇一律，大部分都是开发人员对已有表情包进行语义标注再存入表情库，用户通过检索或关键字匹配获得表情包，斗图仅限于检索，尚未得到突破，制图工具仅能提供简单的制作功能以供用户DIY定制个性表情包。

文本合成表情包是文本到图像合成的一大应用，是计算机视觉领域和自然语言处理领域的交叉领域，文本合成表情包的主要目标是生成高分辨率的和语义一致性的图像，目前现有的文本到图像合成框架仅能生成较高分辨率的图像，但在语义一致性上存在欠缺，合成的图像与文本语义相似度较低，准确性和拟合程度较差，对表情包市场的发展与推广存在较大限制。

发明内容

为了达到上述目的，本发明提供一种基于图文语义的网络社交表情包合成方法，使合成的表情包与文本语义相似度较高，图像的准确性更好，与文本的拟合程度更高。

为了达到上述目的，本发明还提供一种电子设备和计算机可读存储介质。

本发明所采用的技术方案是：基于图文语义的网络社交表情包合成方法，包括以下步骤：

步骤1，收集社交用户常用的网络社交表情包图片，将各表情包图片分为j个部分，对其进行语义标注，每条语义标注对应包括j个特征；

步骤2，使用中文词向量模型将各表情包图片的语义标注转化为文本描述向量，将语义标注中的j个特征分别转换为词特征向量；

步骤3，对各词特征向量进行条件增强得到条件增强向量，将条件增强向量与噪声向量合成j个特征对应的增广向量；

步骤4，利用各增广向量训练DetailGAN_j网络，生成表情包图片中各部分对应的内容块；

步骤5，对所述内容块进行下采样得到联合向量，对联合向量进行条件增强与增广得到增广向量；

步骤6，利用增广向量和文本描述向量训练JoinGAN网络，得到基于图文语义的表情包合成图片。

进一步的，所述步骤3中条件增强向量和增广向量的计算如下：

c_ij＝F_ca(e_ij)

f_caij＝F(N_Z,c_ij)

其中e_ij为第i幅表情包图片中第j个特征生成的词特征向量，F_ca为条件增强函数，c_ij为e_ij对应的条件增强向量，f_caij为c_ij的增广向量，N_Z为噪声向量。

进一步的，所述步骤4中训练DetailGAN_j网络时，将j个特征对应的增广向量分别作为生成器G_j的输入，生成表情包图片中各部分对应的内容块，将各内容块和真实表情包图片的各部分作为判别器D_j的输入，以判别器损失函数

最大化、生成器损失函数

最小化为目标训练得到DetailGAN_j网络。

进一步的，所述生成器损失函数

与判别器损失函数

如下：

其中

分别为第j个判别器D_j的损失函数、第j个生成器G_j的损失函数，x_Dij、t_ij分别为第i幅表情包图片中第j个部分的图片及其特征，p_dataij为第i幅表情包图片中第j部分的真实数据分布，

表示x_Dij、t_ij均采样于p_dataij，

表示生成器G_j的训练图像Z_j采样于噪声P_Z、t_ij采样于p_dataij，N(μ(e_ij),∑₀(e_ij))是均值为μ(e_ij)、对角方差矩阵为∑₀(e_ij)的标准高斯分布，N(0,x_Dij)是均值为0、对角方差矩阵为x_Dij的条件高斯分布，D_KL为标准高斯分布N(μ(e_ij),∑₀(e_ij))与条件高斯分布N(0,x_Dij)的KL散度，λ为平衡标准高斯分布N(μ(e_ij),∑₀(e_ij))与条件高斯分布N(0,x_Dij)的正则化参数。

进一步的，所述步骤5中联合向量

使用下式对联合向量进行条件增强和增广：

f_ca＝F(N_Z,c)

其中FC为下采样操作，

为DetailGAN_j网络中生成器G_j输出的内容块，c为联合向量

的条件增强向量，f_ca为c的增广向量。

进一步的，所述步骤6训练JoinGAN网络时，将增广向量与文本描述向量作为生成器G的输入生成表情包图片

将表情包图片

和真实表情包图片x共同作为判别器D的输入，以判别器损失函数L_D最大化、生成器损失函数L_G最小化为目标训练JoinGAN网络。

进一步的，所述判别器损失函数L_D、生成器损失函数L_G如下：

其中L_D、L_G分别为判别器D的损失函数、生成器G的损失函数，x_i、T_i分别为第i幅真实表情包图片及其语义标注，p_datai为第i幅表情包图片的真实数据分布，

表示x_i、T_i均采样于p_datai，

表示联合向量

采样于DetailGAN_j网络生成的表情包图片、T_i采样于p_datai，

为第i幅表情包图片的文本描述向量，

表示均值为

对角方差矩阵为

的标准高斯分布，N(0,x_i)为均值为0、对角方差矩阵为x_i的条件高斯分布，D′_KL为

与N(0,x_i)的KL散度，λ′为平衡

与N(0,x_i)的正则化参数。

一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述的方法步骤。

一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法步骤。

本发明的有益效果是：本发明实施例通过条件增强将少量的样本图片生成更多的训练样本，使训练的表情包图片合成网络合成准确性更高，且能减小条件空间的微小扰动对表情包图片合成的影响，合成系统的稳健性更好；本发明实施例先使用DetailGAN网络生成表情包图片的各个内容块，再使用JoinGAN网络对各内容块进行融合，生成的表情包图片与文本语义相似度较高，拟合程度更好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是网络社交表情包合成模型示意图。

图2是网络社交表情包合成流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1、图2所示，基于图文语义的网络社交表情包合成方法，包括以下步骤：

步骤1，使用爬行器在各网站上爬取社交用户常用的网络社交表情包图片，将图片数据整理好后进行语义标注；

在本实施例中共收集了40000张表情包图片，去除模糊和不符合要求的表情包图片保留600张表情包图片，统一表情包图片的分辨率，去除表情包图片中的文字，将其分为530张训练集图片和70张测试集图片，将所有表情包图片划分为7个部分，包括头型、五官、上半身、下半身、左手、右手和其他，头型包括头饰，五官包括脸上表情，上半身包括上衣、左手和右手，下半身包括左脚、右脚和裤子，左手、右手分别包括两手上所拿的东西，其他包括除前六个部分之外的内容，给所有的表情包图片添加语义标注，每条语义标注包含7个部分的7个特征；

第i幅表情包图片的语义标注T_i＝[t_i1,…,t_ij,…,t_i7]，i∈{1,2,…,N}，N为表情包图片总数，t_ij表示第i幅表情包图片的第j个特征，1≤j≤7；

步骤2，采用中文词向量模型将语义标注转换为文本描述向量，将语义标注中的7个特征分别转换为词特征向量e_ij，e_ij为第i幅表情包图片中第j个特征生成的词特征向量；

步骤3，由于特征“其他”不用做后续生成条件，无需进行条件增强，所以仅对第i幅表情包图片的前六个词特征向量e_ij进行条件增强得到条件增强向量c_ij，将条件增强向量c_ij与噪声向量N_Z结合得到增广向量f_caij；

c_ij＝F_ca(e_ij)

f_caij＝F(N_Z,c_ij)

其中F_ca表示条件增强函数，c_ij为e_ij对应的条件增强向量，j＝1，2，...，6，f_caij为c_ij的增广向量，增广向量的维度为128维；

步骤4，将各词特征向量e_ij生成的增广向量f_caij分别作为DetailGAN_j网络中生成器G_j的输入，生成表情包图片中各部分对应的、大小为64×64的内容块，将内容块与真实表情包图片的各部分作为判别器D_j的输入，以判别器损失函数

最大化、生成器损失函数

最小化为目标训练DetailGAN_j网络，生成各增广向量对应的内容块

其中，

分别表示第j个判别器D_j的损失函数、第j个生成器G_j的损失函数，x_Dij、t_ij分别表示第i幅表情包图片中第j个部分的图片及其特征，p_dataij为第i幅表情包图片中第j部分的真实数据分布，

表示x_Dij和t_ij采样于p_dataij，

表示G_j的训练图像Z_j采样于噪声P_Z、t_ij采样于p_dataij；

条件增强向量c_ij不是固定不变的，而是通过标准高斯分布N(μ(e_ij),∑₀(e_ij))随机采样，均值μ(e_ij)和对角方差矩阵∑₀(e_ij)是关于e_ij的函数(全连接层子网络)，D_KL为标准高斯分布N(μ(e_ij),∑₀(e_ij))与条件高斯分布N(0,x_Dij)的KL散度(Kullback-Leiblerdivergence)，λ为平衡标准高斯分布N(μ(e_ij),∑₀(e_ij))与条件高斯分布N(0,x_Dij)的正则化参数；在较少的文本图像对情况下，通过条件增强能够生成更多的训练样本，且能减小条件空间的微小扰动对表情包图片合成的影响，使合成系统的稳健性更好；

步骤5，对得到的6个内容块

进行下采样得到联合向量

对联合向量

进行条件增强与增广得到增广向量；

f_ca＝F(N_Z,c)

其中FC表示下采样操作，

为DetailGAN_j网络中生成器G_j输出的内容块，c为联合向量

的条件增强向量，f_ca为c的增广向量；

步骤6，将c的增广向量f_ca与文本描述向量

作为JoinGAN中生成器G的输入，生成一张大小为128×128的表情包图片

将表情包图片

和训练集的真实表情包图片x共同作为JoinGAN中判别器D的输入，以判别器损失函数L_D最大化、生成器损失函数L_G最小化为目标训练JoinGAN网络，得到最终的表情包合成图片。

判别器损失函数L_D和生成器损失函数L_G如下：

其中p_datai为第i幅表情包图片的真实数据分布，

表示x_i和T_i均采样于p_datai，

表示

采样于DetailGAN_j网络生成的表情包图片、T_i采样于p_datai，

表示均值为

对角方差矩阵为

与N(0,x_i)的KL散度，λ′为平衡

与N(0,x_i)的正则化参数。

在日常生活中表情包种类繁多，但各种类表情包图片数量较少，无法用其训练基于图文语义的表情包图片合成网络，即便训练生成表情包图片合成网络，其合成的准确度较低，合成的图片与文本的语义之间相似度较低，无法用表情包图片准确表达用户的语义；本发明首先收集表情包图片，对其进行清洗和整理，将每张表情包分为七个部分，并添加对应的语义标注得到一份包含两种类型的表情包数据集，以各部分分别作为DetailGAN网络的输入生成数个内容块，再将数个内容块下采样后获得的联合向量，进而得到增广向量用做JoinGAN网络的输入，获得基于图文语义的网络社交表情包图片，在该过程中DetailGAN网络准确生成表情包图片的各部分，JoinGAN网络再对各部分进行融合，能在训练样本较少的情况下生成准确的、高质量的、语义一致的表情包图片。

分别使用现有的表情包图片合成方法和本发明基于图文语义进行表情包图片合成，使用图像编码器提取合成的表情包图片的图像局部特征，将图像局部特征和文本描述向量做相似度计算，判断合成的表情包图片与输入文本的语义相似度，使用指标R-precision评估生成的图片与文本描述之间的视觉语义相似度，使用指标FID评估生成图片的质量和多样性，分数越低说明生成的图片质量更高、多样性更好，检测结果如表1所示，由表1可知使用本发明生成的表情包图片质量和多样性更好，与文本描述之间的相似度更高能够准确表述用户输入的图文语义，满足用户的使用需求。

表1本发明与传统表情包合成方法的合成结果检测数据

本发明还包括一种电子设备，所述电子设备包括存储器和处理器，所述存储器内存储有用于实现基于图文语义的网络社交表情包图片合成的计算机程序指令，处理器用于执行所述计算机程序指令以完成上述部分或全部步骤，实现基于图文语义的社交表情包图片的合成；存储器内还存有VGG网络、MTCNN模型和DeepFM表情包推荐算法等的计算机程序指令，存储器可以执行上述计算机程序指令实现风格迁移表情包的生成、人脸定制表情包的生成以及根据用户历史数据智能推荐表情包图片等过程；所述电子设备可以与一个或多个外部设备通信，还可与一个或多个使用户与该电子设备交互的设备通信，和/或与使得该电子设备能与一个或多个其他计算设备进行通信的任何设备通信，电子设备还可以通过网络适配器与一个或多个网络(例如局域网、广域网和/或公共网络)通信。

生成风格迁移表情包时用户在电子设备的输入端口上传风格图和内容图，经过VGG网络得到风格图的图像特征Fs和内容图的图像特征Fc，学习两个图像特征的转化矩阵，利用转化矩阵将风格图像特征转化到内容图上，经解码器得到风格迁移图像；生成人脸定制表情包时用户上传个人照片和风格照片，使用MTCNN模型进行人脸检测与人脸对齐，再提取风格照片中的表情包轮廓，将其与人脸进行融合得到人脸定制表情包。

本发明还包括一种存储有计算机程序的计算机可读存储介质，计算机可读存储介质可以包括但不限于磁存储设备、光盘、数字多功能盘、智能卡及闪存设备，此外本发明的可读存储介质能代表用于存储信息的一个或多个设备和/或其他机器可读介质，术语“机器可读介质”包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线通道和各种其他介质(和/或存储介质)。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.基于图文语义的网络社交表情包合成方法，其特征在于，包括以下步骤：

步骤4，利用各增广向量训练DetailGAN_j网络，生成表情包图片中各部分对应的内容块；训练DetailGAN_j网络时，将j个特征对应的增广向量分别作为生成器G_j的输入，生成表情包图片中各部分对应的内容块，将各内容块和真实表情包图片的各部分作为判别器D_j的输入，以判别器损失函数

最大化、生成器损失函数

最小化为目标训练得到DetailGAN_j网络；所述生成器损失函数

与判别器损失函数

如下：

其中

表示x_Dij、t_ij均采样于p_dataij，

表示生成器G_j的训练图像Z_j采样于噪声P_Z、t_ij采样于p_dataij，e_ij为第i幅表情包图片中第j个特征生成的词特征向量，f_caij为c_ij的增广向量，N(μ(e_ij),∑₀(e_ij))是均值为μ(e_ij)、对角方差矩阵为∑₀(e_ij)的标准高斯分布，N(0,x_Dij)是均值为0、对角方差矩阵为x_Dij的条件高斯分布，D_KL为标准高斯分布N(μ(e_ij),∑₀(e_ij))与条件高斯分布N(0,x_Dij)的KL散度，λ为平衡标准高斯分布N(μ(e_ij),∑₀(e_ij))与条件高斯分布N(0,x_Dij)的正则化参数；

步骤6，利用增广向量和文本描述向量训练JoinGAN网络，得到基于图文语义的表情包合成图片；训练JoinGAN网络时，将增广向量与文本描述向量作为生成器G的输入生成表情包图片