CN116910294A - 一种基于情感分析的图像滤镜生成方法 - Google Patents
一种基于情感分析的图像滤镜生成方法 Download PDFInfo
- Publication number
- CN116910294A CN116910294A CN202311007227.4A CN202311007227A CN116910294A CN 116910294 A CN116910294 A CN 116910294A CN 202311007227 A CN202311007227 A CN 202311007227A CN 116910294 A CN116910294 A CN 116910294A
- Authority
- CN
- China
- Prior art keywords
- text
- emotion
- image
- anchor
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 194
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000004458 analytical method Methods 0.000 title claims abstract description 23
- 239000013598 vector Substances 0.000 claims abstract description 66
- 230000006870 function Effects 0.000 claims abstract description 51
- 239000000284 extract Substances 0.000 claims abstract description 6
- 230000004927 fusion Effects 0.000 claims description 26
- 239000011159 matrix material Substances 0.000 claims description 11
- 108091026890 Coding region Proteins 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 9
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 6
- 238000012800 visualization Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 230000002996 emotional effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 abstract description 5
- 230000014759 maintenance of location Effects 0.000 abstract description 4
- 230000008447 perception Effects 0.000 abstract description 4
- 230000006872 improvement Effects 0.000 abstract description 3
- 238000012549 training Methods 0.000 description 11
- 238000013508 migration Methods 0.000 description 9
- 230000005012 migration Effects 0.000 description 9
- 238000013473 artificial intelligence Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 206010027940 Mood altered Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Library & Information Science (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供的一种基于情感分析的图像滤镜生成方法,引入了视觉上情绪分析的先验知识,采用预训练的BERT模型和VAD情感词典,有效提取文本中的情感,提升模型对文本情感的感知能力。通过可学习的分组编码,将内容图像编码和文本编码特征融合成跨模态序列,赋予模型跨模态感知能力,提高文本控制下图像表现出文本情感的能力。设计情感向量损失函数和情感分类损失函数,全面展示客观和主观情感,使模型准确地将文本情感反映在生成图像中。在情感展现程度、内容保留程度、图像生成质量和条件一致性等方面取得显著性能提升。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种基于情感分析的图像滤镜生成方法。
背景技术
随着人工智能技术的迅猛发展,人工智能生成内容(AIGC)作为一种创新的技术应用,逐渐引起了广泛的关注和研究。本发明涉及一种基于人工智能技术的内容生成方法,其可自动生成各种形式的内容,例如文本、图像、音频等。这些内容是由计算机程序在无需人类手动创作的情况下完成的。本方法通过利用大规模数据集和深度学习模型,如神经网络和语言模型,实现内容的自动生成。由于传统图像创作对于设计者的绘图和美术技术功底要求较高,并且耗时耗费资源,因此本方法能够更加高效地创作艺术图像,满足全民创作的目标,并受到人们的广泛关注与喜爱。
情感分析,也被称为意见挖掘,是一种自然语言处理技术,用于识别和分析文本中所表达的情感倾向或情绪。该技术旨在从文本数据中自动识别出正面、负面或中性的情感,帮助理解人们在社交媒体、产品评论、新闻文章等各种文本中的情感和情绪态度。在人工智能领域中,研究者们希望让机器也能具有情感,最早在1997年,麻省理工媒体实验室就提出了情感计算的概念,在之后的研究中,情感计算是自然语言处理中的一个重要领域,其目的是让计算机能够自动识别和理解文本中蕴含的情感信息,赋予机器识别,理解,表达情感的能力。
情感分析可以应用于多个领域,如社交媒体监测、品牌声誉管理、市场营销、舆情分析、产品推广和客户服务等。它可以帮助企业了解用户对其产品或服务的满意度,发现潜在的用户需求和痛点,提高客户满意度和忠诚度。情感分析的实现通常涉及使用机器学习和深度学习技术,构建情感分类模型,对文本数据进行分类,并判断其情感倾向。常见的情感分析方法包括基于规则的方法、情感词典方法和机器学习方法,其中深度学习方法在处理大规模文本数据时表现出色。但是,情感分析也面临一些挑战,如语义理解、文本歧义性和文化差异等,因此仍在不断发展和完善。
在当前社会中,人们在社交网络上分享对某事件或活动的观点和体验,文本成为直接表达意见和与其他用户建立情感联系的媒介。例如:“我今天考试没考好,心情糟透了”或者“我即将搭火车去旅游,真是个令人期待的旅程”。此时,用户的文本描述可能包含观点和意向等情感词汇,希望通过包含情感的语句进行相应情感的风格转换。这对先前的模型构成了巨大挑战,因为它们无法提取文本中的情感信息,导致难以理解其中的情感,并且很难生成与文本表达的情感相对应的风格和纹理。因此,本发明提出了一种基于情感分析的图像滤镜生成方法。该方法允许用户输入情感文本和内容图像,模型从文本中提取情感,并对内容图像进行相应的情感迁移,最终生成能够体现情感并保留内容的新图像。
如图1所示,现有技术之一的“基于单一文本条件的图像风格迁移”文章中,引入了CLIP跨模态大模型以理解文本中的情感并投射到生成图中:
首先,为了解决文本和图像对应的问题,本发明引入了CLIP跨模态大模型,并设计了CLIP损失。通过计算文本间的CLIP距离,指导最终生成图像的风格迁移。其次,为了更好地将文本中的情感投影到生成图像中,本发明采取了对生成图像进行随机切割的方法,取多个小图像块进行CLIP损失的计算。最后,本发明提出了一种快速进行迁移的风格迁移方法,从而使得模型可以适用于任何内容图像。
如图2所示,现有技术之二的“"语言驱动的艺术风格迁移”文章设计了鉴别器和对比学习损失,较好的保持了生成图的内容与内容图一致:
首先,本发明设计了结构重建模块,用于确保生成图像的内容与内容图像一致。其次,为了建立文本与内容图像之间的视觉语义联系,本发明引入了逐块风格鉴别器。通过将生成图像进行随机切割,并输入到风格鉴别器中,以判断文本与内容图像是否相匹配。最后,本发明提出了对比学习模块。针对不同的风格指令和内容图像,通过计算参考风格图像之间的余弦相似性来定义相对匹配关系。在此过程中,即使成对的样式指令不同,仍需对齐样式特征以一定程度上匹配。
发明人在研究的过程中发现:对于“基于单一文本条件的图像风格迁移”、“"语言驱动的艺术风格迁移”现有技术中:
1、利用CLIP跨模态大模型的先验知识,学习文本中的情感,并将情感投射到生成图像中;
2、利用鉴别器和对比学习的方法,学习内容图像的内容结构和风格图像的风格纹理,并在生成图像中较好地表现;
由于上述技术问题导致于现有技术中存在以下缺点:
1、模型的生成图更加关注文本的内容,导致对用户输入的内容图像的内容保留程度较差;
2、CLIP模型不能完全反映文本的情感,并且,模型缺乏对文本情感的提取和理解,导致文本中的情感无法正确地反映到生成图像中。
发明内容
为了解决上述技术问题,本发明提供了一种基于情感分析的图像滤镜生成方法。该方法引入了视觉上情绪分析的先验知识,利用预训练的BERT模型将文本编码为词向量,并进一步获取VAD情感词典中的情感嵌入,以学习每个词的固有情感属性,从而提升了模型对文本中情感的感知能力。此外,本发明还设计了具有分组Transformer架构的图像滤镜模型,将文本编码和图像编码进行融合。为了全面可视化客观和主观的情感,本发明还设计了新的损失函数。通过这些创新,使得模型更加准确地将文本中的情感展现到生成图像中。
本发明提供了一种基于情感分析的图像滤镜生成方法,在模型训练时,该方法包括:
步骤一、从ArtEmis数据集中随机选择一个文本描述作为锚点文本。并且,取出锚点文本对应的风格图;
步骤二、根据锚点文本在米克尔情感轮(Mikels emotion wheel)中的位置对其进行分类,与锚点文本在同一区域的文本描述中选择一个文本为正例文本,相邻区域的文本描述中选择一个文本为相关文本,相反区域的文本描述中选择一个文本为负例文本。并且,取出正例文本,相关文本,负例文本对应的风格图;
步骤三、使用预训练的BERT将锚点文本编码为词向量,并进一步在VAD词典中获取情感向量,以揭示每个词固有的情感属性。并将词向量和情感向量进行投射形成基于锚点文本的文本词编码;
步骤四、将内容图片输入图像编码器获得图像块编码;
步骤五、将图像块向量,基于锚点文本的文本词编码拼接为一个序列,并给两种不同模态的编码分别加上模态类型编码,得到基于锚点文本的特征融合跨模态编码序列;
步骤六、将基于锚点文本的跨模态编码序列输入到用于特征融合的分组Transformer中,对跨模态序列的特征进行融合,得到基于锚点文本的特征融合跨模态序列;
步骤七、将基于锚点文本的特征融合跨模态序列拆分,把其中的图像块编码输入到解码器中,得到基于锚点文本的生成图;
步骤八、将步骤三中的锚点文本分别替换为正例文本、相关文本、负例文本,重复步骤五、步骤六和步骤七,得到基于正例文本、相关文本、负例文本的生成图;
步骤九、将所有的生成图输入到情感提取器提取对应图片的情感向量,通过对比学习,计算情感向量损失函数。再将生成图片输入情感分类器,并且使用Kullback-Leibler(KL)损失来计算情感分类损失函数;
步骤十、将生成图片与内容图像进行计算的到内容损失,将生成图片与风格图像进行计算的到风格损失,将生成图片与输入的文本进行计算得到条件损失,以上损失进行加权求和,得到图像可视化损失函数;
步骤十一、将情感向量损失函数、情感分类损失函数和图像可视化损失函数进行加权求和,得到整体损失函数,使用反向传播算法(Back Propagation,BP)计算梯度,并使用Adam优化器优化整体损失函数更新模型各层权重。
进一步的,非训练情况下,进行基于情感分析的图像滤镜生成时,将步骤二、步骤八、步骤九、步骤十、步骤十一除去,并将步骤一、步骤三、步骤五、步骤六、步骤七予以替换,替换如下:
步骤一、将用户输入的情感文本作为输入;
步骤三、使用预训练的BERT将用户输入的文本编码为词向量,并进一步在VAD词典中获取情感向量,以揭示每个词固有的情感属性。并将词向量和情感向量进行投射形成文本词编码;
步骤五、将图像块向量,文本词编码拼接为一个序列,并给两种不同模态的编码分别加上模态类型编码,得到特征融合跨模态编码序列;
步骤六、将跨模态编码序列输入到用于特征融合的分组Transformer中,对跨模态序列的特征进行融合,得到特征融合跨模态序列;
步骤七、将特征融合跨模态序列拆分,把其中的图像块编码输入到解码器中,得到最终生成图。
进一步的,所述步骤二中,模型的输入表示为:
Input={Tseed,Tpos,Trel,Tneg}
其中,Tseed,Tpos,Trel,Tneg分别表示锚点文本,正例文本,相关文本,负例文本。
进一步的,所述步骤六中,使用分组Transformer中的包含若干个计算单元,每个计算单元计算过程如下:
其中,ftex和fimg分别是文本编码和图像编码。和/>为模态类型编码。并且,分组transformer的初始输入表示为:
其中,分组transformer包括L个标准的transformer模块,每个模块包含一个多头注意力层(MSA),一个MLP层和两个残差连接,LN表示层归一化。
进一步的,所述步骤九中,情感提取器提取图像VGG网络的多级特征,对这些特征进行格拉姆矩阵(Gram matrix)操作,由此定义情感向量,如下:
其中,代表Gram矩阵中第j个特征级的第i个上三角元素。
因此,情绪向量之间的距离可以公式表示为:
Fsw(Vi,Vj)=||Vi-Vj||/Fdis(Vi,Vj)
其中,将情绪之间的距离定义为从一个情绪区域到另一个情绪区的最小步数Fdis,其定义为从一个情绪区域到另一个情绪区的最小步数。
因此,情感向量损失函数为:
Lsw=max((Fsw(Vseed,Vpos)-Fsw(Vseed,Vrel)+a),0)+max((Fsw(Vseed,Vrel)-Fsw(Vseed,Vneg)+b),0)
其中,超参数a=0.02,b=0.01。Vseed,Vpos,Vrel,Vneg分别为锚点文本对应图像的情感向量,正例文本对应图像的情感向量,相关文本对应图像的情感向量,负例文本对应图像的情感向量。
进一步的,所述步骤九中,使用预训练的情感分类器σ,并且使用Kullback-Leibler(KL)损失来计算情感分类损失函数,如下所示:
Fed=∑diln(di/σ(Iout)i)
其中,σ(Iout)i和di分别表示生成图估计的类别分布和实际的类别分布。这有助于图像情感滤镜模型更准确地将文本中的情绪反映到图像中。
进一步的,所述步骤十中,设计了内容损失以保持生成图与用户提供的内容图在内容上保持一致,如下所示:
其中,和/>分别为生成图和内容图在第i级提取的特征。
所述步骤十中,通过预训练的VGG网络,采用风格损失来缩小提取特征之间的风格差异,如下所示:
其中,u和σ分别是均值函数和方差函数,和/>分别为生成图和风格图在第i级提取的特征。
所述步骤十中,设计了多级条件和无条件鉴别器,目的是将生成图像与用户提供的文本对齐,以及区分生成图像情感是否与文本中提供的情感相同,如下所示:
LGAN=logD(Iacr)+log(1-D(G(Ipat,Ttex)))+logD(Iacr,Ttex)+log(1-D(G(Ipat,Ttex),Ttex))
其中,D为鉴别器,生成器G为图像情感滤镜模型,Ipat,Iacr,Ttex分别为内容图像,风格图像和输入文本。
进一步的,所述步骤十一中,本实施例在4块英伟达TITAN RTX GPU显卡上进行训练,批量大小为24,并且进行了80000次的训练,使用Adam优化器,并设置学习率为0.0005。
本发明提供的一种基于情感分析的图像滤镜生成方法,引入了视觉上情绪分析的先验知识,使用预训练的BERT模型和VAD情感词典将文本中的情感进行有效的提取,提升了模型对文本中情感的感知能力;使用可学习的分组编码,将内容图像编码和文本编码的特征融合跨模态序列,赋予了模型跨模态感知的能力,提高了文本控制下使图像反应出文本的情感;通过设计情感向量损失函数和情感分类损失函数,全面可视化客观和主观的情感,从而使模型更加明确的将文本中的情感展现到生成图像中,在情感展现程度、内容保留程度、图像生成质量、条件一致性上都取得一定的性能提升。
附图说明
图1为“基于单一文本条件的图像风格迁移”的示意图;
图2为“"语言驱动的艺术风格迁移”的示意图;
图3为实施例一的流程图;
图4为本发明提供的一种基于情感分析的图像滤镜生成方法的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。其中,本实施例中出现的缩略语和关键术语定义如下:
AIGC:Artificial Intelligence Generated Content人工智能生成内容;
BP:Back Propagation反向传播;
CLIP:Contrastive Language-Image Pre-Training利用对比学习的语言-图像预训练大模型;
VAD:Valence-Arousal-Dominance用这三个属性评价词的情感属性;
ViT:Vision Transformer 2020年Google团队提出的将Transformer应用在图像分类的模型;
ReLU:Rectified Linear Unit线性整流函数,是一种激活函数;
BERT:Bidirectional Encoder Representation from Transformers基于Transformer的双向编码器表示,是一种预训练模型;
Mikels emotion wheel:米克尔情感轮,一种情感分布的标记方法;
Gram matrix:格拉姆矩阵可以计算图像特征层之间的偏心协方差矩阵;
VGG:一种卷积神经网络结构;
KL Loss:KL(Kullback-Leibler)散度可以用来衡量两个概率分布之间的相似性,两个概率分布越相近,KL散度越小;
Adam:A method for Stochastic Optimizaiton一种随机梯度下降方法。
实施例一
参照图3、4所示,图3,4示出了本发明提供的一种基于情感分析的图像滤镜生成方法,具体的,在模型训练时,该方法包括:
步骤一、从ArtEmis数据集中随机选择一个文本描述作为锚点文本。并且,取出锚点文本对应的风格图;
步骤二、根据锚点文本在米克尔情感轮(Mikels emotion wheel)中的位置对其进行分类,与锚点文本在同一区域的文本描述中选择一个文本为正例文本,相邻区域的文本描述中选择一个文本为相关文本,相反区域的文本描述中选择一个文本为负例文本。并且,取出正例文本,相关文本,负例文本对应的风格图;
进一步的,所述步骤二中,模型的输入表示为:
Input={Tseed,Tpos,Trel,Tneg}
其中,Tseed,Tpos,Trel,Tneg分别表示锚点文本,正例文本,相关文本,负例文本。
步骤三、使用预训练的BERT将锚点文本编码为词向量,并进一步在VAD词典中获取情感向量,以揭示每个词固有的情感属性。并将词向量和情感向量进行投射形成基于锚点文本的文本词编码;
步骤四、将内容图片输入图像编码器获得图像块编码;
步骤五、将图像块向量,基于锚点文本的文本词编码拼接为一个序列,并给两种不同模态的编码分别加上模态类型编码,得到基于锚点文本的特征融合跨模态编码序列;
步骤六、将基于锚点文本的跨模态编码序列输入到用于特征融合的分组Transformer中,对跨模态序列的特征进行融合,得到基于锚点文本的特征融合跨模态序列;
进一步的,所述步骤六中,使用分组Transformer中的包含若干个计算单元,每个计算单元计算过程如下:
其中,ftex和fimg分别是文本编码和图像编码。和/>为模态类型编码。并且,分组transformer的初始输入表示为:
其中,分组transformer包括L个标准的transformer模块,每个模块包含一个多头注意力层(MSA),一个MLP层和两个残差连接,LN表示层归一化。
步骤七、将基于锚点文本的特征融合跨模态序列拆分,把其中的图像块编码输入到解码器中,得到基于锚点文本的生成图;
步骤八、将步骤三中的锚点文本分别替换为正例文本、相关文本、负例文本,重复步骤五、步骤六和步骤七,得到基于正例文本、相关文本、负例文本的生成图;
步骤九、将所有的生成图输入到情感提取器提取对应图片的情感向量,通过对比学习,计算情感向量损失函数。再将生成图片输入情感分类器,并且使用Kullback-Leibler(KL)损失来计算情感分类损失函数;
进一步的,所述步骤九中,情感提取器提取图像VGG网络的多级特征,对这些特征进行Gram矩阵操作,由此定义情感向量,如下:
其中,代表Gram矩阵中第j个特征级的第i个上三角元素。
因此,情绪向量之间的距离可以公式表示为:
Fsw(Vi,Vj)=||Vi-Vj||/Fdis(Vi,Vj)
其中,将情绪之间的距离定义为从一个情绪区域到另一个情绪区的最小步数Fdis,其定义为从一个情绪区域到另一个情绪区的最小步数。
因此,情感向量损失函数为:
Lsw=max((Fsw(Vseed,Vpos)-Fsw(Vseed,Vrel)+a),0)+max((Fsw(Vseed,Vrel)-Fsw(Vseed,Vneg)+b),0)
其中,超参数a=0.02,b=0.01。Vseed,Vpos,Vrel,Vneg分别为锚点文本对应图像的情感向量,正例文本对应图像的情感向量,相关文本对应图像的情感向量,负例文本对应图像的情感向量。
进一步的,所述步骤九中,使用预训练的情感分类器σ,并且使用Kullback-Leibler(KL)损失来计算情感分类损失函数,如下所示:
Fed=∑diln(di/σ(Iout)i)
其中,σ(Iout)i和di分别表示生成图估计的类别分布和实际的类别分布。这有助于图像情感滤镜模型更准确地将文本中的情绪反映到图像中。
步骤十、将生成图片与内容图像进行计算的到内容损失,将生成图片与风格图像进行计算的到风格损失,将生成图片与输入的文本进行计算得到条件损失,以上损失进行加权求和,得到图像可视化损失函数;
进一步的,所述步骤十中,设计了内容损失以保持生成图与用户提供的内容图在内容上保持一致,如下所示:
其中,和/>分别为生成图和内容图在第i级提取的特征。
所述步骤十中,通过预训练的VGG网络,采用风格损失来缩小提取特征之间的风格差异,如下所示:
其中,u和σ分别是均值函数和方差函数,和/>分别为生成图和风格图在第i级提取的特征。
所述步骤十中,设计了多级条件和无条件鉴别器,目的是将生成图像与用户提供的文本对齐,以及区分生成图像情感是否与文本中提供的情感相同,如下所示:
LGAN=logD(Iacr)+log(1-D(G(Ipat,Ttex)))+logD(Iacr,Ttex)+log(1-D(G(Ipat,Ttex),Ttex))
其中,D为鉴别器,生成器G为图像情感滤镜模型,Ipat,Iacr,Ttex分别为内容图像,风格图像和输入文本。
步骤十一、将情感向量损失函数、情感分类损失函数和图像可视化损失函数进行加权求和,得到整体损失函数,使用反向传播算法(Back Propagation,BP)计算梯度,并使用Adam优化器优化整体损失函数更新模型各层权重。
进一步的,所述步骤十一中,本实施例在4块英伟达TITAN RTX GPU显卡上进行训练,批量大小为24,并且进行了80000次的训练,使用Adam优化器,并设置学习率为0.0005。
进一步的,非训练情况下,进行基于情感分析的图像滤镜生成时,将步骤二、步骤八、步骤九、步骤十、步骤十一除去,并将步骤一、步骤三、步骤五、步骤六、步骤七予以替换,替换如下:
步骤一、将用户输入的情感文本作为输入;
步骤三、使用预训练的BERT将用户输入的文本编码为词向量,并进一步在VAD词典中获取情感向量,以揭示每个词固有的情感属性。并将词向量和情感向量进行投射形成文本词编码;
步骤五、将图像块向量,文本词编码拼接为一个序列,并给两种不同模态的编码分别加上模态类型编码,得到特征融合跨模态编码序列;
步骤六、将跨模态编码序列输入到用于特征融合的分组Transformer中,对跨模态序列的特征进行融合,得到特征融合跨模态序列;
步骤七、将特征融合跨模态序列拆分,把其中的图像块编码输入到解码器中,得到最终生成图。
一优选实施例,如图3所示,首先,从ArtEmis数据集中选取锚点文本、正例文本、相关文本和负例文本,并提取对应的风格图像。然后,利用预训练的BERT将锚点文本编码为词向量,并在VAD词典中获取情感向量,揭示每个词的固有情感属性。将词向量和情感向量投射形成基于锚点文本的文本词编码。同样地,将内容图片输入图像编码器,获取图像块编码。接下来,将图像块编码和文本词编码拼接成一个序列,并为两种不同模态的编码分别添加模态类型编码。将这些编码输入分组Transformer,得到相应的结果,将图像块编码输入解码器,生成基于锚点文本的生成图。最后,将正例文本、相关文本和负例文本输入到模型中得到生成图,通过对比学习计算情感向量损失函数和情感分类损失函数,并与内容损失函数、风格损失函数和条件生成对抗网络损失进行加权求和,得到整体损失函数。使用反向传播算法计算梯度,并利用Adam优化器优化整体损失函数来更新模型各层权重。在非训练情况下,无需取出正例文本、相关文本和负例文本以及对应的风格图像,也无需计算损失函数,直接输入到解码器即可得到生成图。
本发明实施例引入了视觉上情绪分析的先验知识,采用预训练的BERT模型和VAD情感词典,有效提取文本中的情感,提升模型对文本情感的感知能力。通过可学习的分组编码,将内容图像编码和文本编码特征融合成跨模态序列,赋予模型跨模态感知能力,提高文本控制下图像表现出文本情感的能力。设计情感向量损失函数和情感分类损失函数,全面展示客观和主观情感,使模型准确地将文本情感反映在生成图像中。在情感展现程度、内容保留程度、图像生成质量和条件一致性等方面取得显著性能提升。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (4)
1.一种基于情感分析的图像滤镜生成方法,其特征在于采用分组Transformer架构,并设计了情感向量损失和情感分类损失,以更好地学习文本中的情感信息。该方法包括:
步骤一、从数据集中随机选择一个文本描述作为锚点文本。并且,取出锚点文本对应的风格图;
步骤二、根据锚点文本在米克尔情感轮(Mikels emotion wheel)中的位置对其进行分类,与锚点文本在同一区域的文本描述中选择一个文本为正例文本,相邻区域的文本描述中选择一个文本为相关文本,相反区域的文本描述中选择一个文本为负例文本。并且,取出正例文本,相关文本,负例文本对应的风格图;
步骤三、使用预训练的BERT将锚点文本编码为词向量,并进一步在VAD词典中获取情感向量,以揭示每个词固有的情感属性。并将词向量和情感向量进行投射形成基于锚点文本的文本词编码;
步骤四、将内容图片输入图像编码器获得图像块编码;
步骤五、将图像块向量,基于锚点文本的文本词编码拼接为一个序列,并给两种不同模态的编码分别加上模态类型编码,得到基于锚点文本的特征融合跨模态编码序列;
步骤六、将基于锚点文本的跨模态编码序列输入到用于特征融合的分组Transformer中,对跨模态序列的特征进行融合,得到基于锚点文本的特征融合跨模态序列;
步骤七、将基于锚点文本的特征融合跨模态序列拆分,把其中的图像块编码输入到解码器中,得到基于锚点文本的生成图;
步骤八、将步骤三中的锚点文本分别替换为正例文本、相关文本、负例文本,重复步骤五、步骤六和步骤七,得到基于正例文本、相关文本、负例文本的生成图;
步骤九、将所有的生成图输入到情感提取器提取对应图片的情感向量,通过对比学习,计算情感向量损失函数。再将生成图片输入情感分类器,并且使用Kullback-Leibler(KL)损失来计算情感分类损失函数;
步骤十、将生成图片与内容图像进行计算的到内容损失,将生成图片与风格图像进行计算的到风格损失,将生成图片与输入的文本进行计算得到条件损失,以上损失进行加权求和,得到图像可视化损失函数;
步骤十一、将情感向量损失函数、情感分类损失函数和图像可视化损失函数进行加权求和,得到整体损失函数,使用反向传播算法(Back Propagation,BP)计算梯度,并使用Adam优化器优化整体损失函数更新模型各层权重。
2.如权利要求1所述方法,其特征在于,所述步骤六中,使用分组Transformer中的包含若干个计算单元,每个计算单元计算过程如下:
其中,ftex和fimg分别是文本编码和图像编码。和/>为模态类型编码。并且,分组transformer的初始输入表示为:
其中,分组transformer包括L个标准的transformer模块,每个模块包含一个多头注意力层(MSA),一个MLP层和两个残差连接,LN表示层归一化。
进一步的,所述步骤九中,情感提取器提取图像VGG网络的多级特征,对这些特征进行Gram矩阵操作,由此定义情感向量,如下:
其中,代表Gram矩阵中第j个特征级的第i个上三角元素。
因此,情绪向量之间的距离可以公式表示为:
Fsw(Vi,Vj)=||Vi-Vj||/Fdis(Vi,Vj)
其中,将情绪之间的距离定义为从一个情绪区域到另一个情绪区的最小步数Fdis,其定义为从一个情绪区域到另一个情绪区的最小步数。
因此,情感向量损失函数为:
Lsw=max((Fsw(Vseed,Vpos)-Fsw(Vseed,Vrel)+a),0)+max((Fsw(Vseed,Vrel)-Fsw(Vseed,Vneg)+b),0)
其中,超参数a=0.02,b=0.01。Vseed,Vpos,Vrel,Vneg分别为锚点文本对应图像的情感向量,正例文本对应图像的情感向量,相关文本对应图像的情感向量,负例文本对应图像的情感向量。
3.如权利要求1所述方法,其特征在于,所述步骤九中,使用预训练的情感分类器σ,并且使用Kullback-Leibler(KL)损失来计算情感分类损失函数,如下所示:
Fed=∑diln(di/σ(Iout)i)
其中,σ(Iout)i和di分别表示生成图估计的类别分布和实际的类别分布。这有助于图像情感滤镜模型更准确地将文本中的情感反映到图像中。
4.如权利要求1所述方法,其特征在于,所述步骤十中,设计了内容损失以保持生成图与用户提供的内容图在内容上保持一致,如下所示:
其中,和/>分别为生成图和内容图在第i级提取的特征。
所述步骤十中,通过预训练的VGG网络,采用风格损失来缩小提取特征之间的风格差异,如下所示:
其中,u和σ分别是均值函数和方差函数,和/>分别为生成图和风格图在第i级提取的特征。
所述步骤十中,设计了多级条件和无条件鉴别器,目的是将生成图像与用户提供的文本对齐,以及区分生成图像情感是否与文本中提供的情感相同,如下所示:
LGAN=logD(Iacr)+log(1-D(G(Ipat,Ttex)))+logD(Iacr,Ttex)+log(1-D(G(Ipat,Ttex),Ttex))
其中,D为鉴别器,生成器G为图像情感滤镜模型,Ipat,Iacr,Ttex分别为内容图像,风格图像和输入文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311007227.4A CN116910294A (zh) | 2023-08-11 | 2023-08-11 | 一种基于情感分析的图像滤镜生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311007227.4A CN116910294A (zh) | 2023-08-11 | 2023-08-11 | 一种基于情感分析的图像滤镜生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116910294A true CN116910294A (zh) | 2023-10-20 |
Family
ID=88354825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311007227.4A Pending CN116910294A (zh) | 2023-08-11 | 2023-08-11 | 一种基于情感分析的图像滤镜生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116910294A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152825A (zh) * | 2023-10-27 | 2023-12-01 | 中影年年(北京)文化传媒有限公司 | 基于单张图片人脸重建方法及系统 |
-
2023
- 2023-08-11 CN CN202311007227.4A patent/CN116910294A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152825A (zh) * | 2023-10-27 | 2023-12-01 | 中影年年(北京)文化传媒有限公司 | 基于单张图片人脸重建方法及系统 |
CN117152825B (zh) * | 2023-10-27 | 2024-03-08 | 中影年年(北京)科技有限公司 | 基于单张图片人脸重建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111488931B (zh) | 文章质量评估方法、文章推荐方法及其对应的装置 | |
CN111444340A (zh) | 文本分类和推荐方法、装置、设备及存储介质 | |
CN113051916B (zh) | 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法 | |
CN111046275B (zh) | 基于人工智能的用户标签确定方法及装置、存储介质 | |
CN111680217A (zh) | 内容推荐方法、装置、设备及存储介质 | |
CN111581966A (zh) | 一种融合上下文特征方面级情感分类方法和装置 | |
CN115131698B (zh) | 视频属性确定方法、装置、设备及存储介质 | |
CN111666500A (zh) | 文本分类模型的训练方法及相关设备 | |
CN112100375A (zh) | 文本信息生成方法、装置、存储介质及设备 | |
CN111897954A (zh) | 一种用户评论方面挖掘系统、方法、及存储介质 | |
CN114648031A (zh) | 基于双向lstm和多头注意力机制的文本方面级情感识别方法 | |
CN116910294A (zh) | 一种基于情感分析的图像滤镜生成方法 | |
Puscasiu et al. | Automated image captioning | |
Feng et al. | IC9600: a benchmark dataset for automatic image complexity assessment | |
CN116680363A (zh) | 一种基于多模态评论数据的情感分析方法 | |
Zhou et al. | Evaluation and design method for product form aesthetics based on deep learning | |
CN115659947A (zh) | 基于机器阅读理解及文本摘要的多项选择答题方法及系统 | |
Pande et al. | Development and deployment of a generative model-based framework for text to photorealistic image generation | |
CN115270752A (zh) | 一种基于多层次对比学习的模板句评估方法 | |
CN114781503A (zh) | 一种基于深度特征融合的点击率预估方法 | |
CN113704393A (zh) | 关键词提取方法、装置、设备及介质 | |
CN112749566B (zh) | 一种面向英文写作辅助的语义匹配方法及装置 | |
CN116070025A (zh) | 一种基于联合评分预测和理由生成的可解释推荐方法 | |
CN117115505A (zh) | 一种结合知识蒸馏与对比学习的情感增强继续训练方法 | |
CN113792541B (zh) | 一种引入互信息正则化器的方面级情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |