CN115546355B - 一种文本配图方法及装置 - Google Patents

一种文本配图方法及装置 Download PDF

Info

Publication number
CN115546355B
CN115546355B CN202211496854.4A CN202211496854A CN115546355B CN 115546355 B CN115546355 B CN 115546355B CN 202211496854 A CN202211496854 A CN 202211496854A CN 115546355 B CN115546355 B CN 115546355B
Authority
CN
China
Prior art keywords
picture
text
vector
text data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211496854.4A
Other languages
English (en)
Other versions
CN115546355A (zh
Inventor
刘剑锋
王宝元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hongmian Xiaoice Technology Co Ltd
Original Assignee
Beijing Hongmian Xiaoice Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hongmian Xiaoice Technology Co Ltd filed Critical Beijing Hongmian Xiaoice Technology Co Ltd
Priority to CN202211496854.4A priority Critical patent/CN115546355B/zh
Publication of CN115546355A publication Critical patent/CN115546355A/zh
Application granted granted Critical
Publication of CN115546355B publication Critical patent/CN115546355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种文本配图方法及装置。该方法包括:获取待配图的文本数据;将文本数据输入到情绪关键词组提取模型,获得情绪关键词组提取模型输出的情绪关键词组;其中,情绪关键词组提取模型是基于社交样本数据、社交样本数据对应的情绪分类标签进行训练得到的情绪分类模型;生成情绪关键词组的文本查询请求,基于文本查询请求到开放域图片库进行查询,获得第一图片;确定文本数据的文本向量;生成文本向量的向量查询请求,基于向量查询请求到本地图片向量库进行查询,获得第二图片;对第一图片和第二图片进行重排,输出目标配图。本发明提供的文本配图方法,能够为社交领域的文本数据进行在线自动配图,提高了社交领域的文本配图效率和精确度。

Description

一种文本配图方法及装置
技术领域
本发明涉及大数据处理技术领域,具体涉及一种文本配图方法及装置。另外,还涉及一种电子设备及处理器可读存储介质。
背景技术
近年来,随着互联网技术的快速发展,各种社交软件应用越来越广泛。用户对富媒体的需求也随之增长。例如,用户在通过社交软件发送消息时,希望能够图文并茂,而当社交内容仅为纯文本数据时,用户的体验并不好。但是目前社交领域的含图率非常低,导致用户应用体验较差。现有技术中,一般是先从输入的文本、标签找到候选最相似的文本和标签,然后再将候选文本和标签关联的图片返回,本质上还是文本与文本匹配的任务。这样做最大的问题在于,每个候选的图片都必须要有关联文本或者标签,这需要极大的人工标注成本,并且数量依然有限,导致配图效率较低,且人工筛选成本较高。因此,如何设计一种文本配图方案来提升社交领域的文本配图效率和精确度成为亟待解决的难题。
发明内容
为此,本发明提供一种文本配图方法及装置,以解决现有技术中存在的社交领域的文本配图方案局限性较高,从而导致文本配图效率和精确度较差的缺陷。
第一方面,本发明提供一种文本配图方法,包括:
获取待配图的文本数据;
将所述文本数据输入到情绪关键词组提取模型,获得所述情绪关键词组提取模型输出的情绪关键词组;其中,所述情绪关键词组提取模型是基于社交样本数据、所述社交样本数据对应的情绪分类标签进行训练得到的;基于所述情绪关键词组到开放域图片库进行查询,获得第一图片;
确定所述文本数据的文本向量;生成所述文本向量的向量查询请求,基于向量查询请求到本地图片向量库进行查询,获得第二图片;
对所述第一图片和所述第二图片进行重排,输出目标配图。
进一步的,所述确定所述文本数据的文本向量,具体包括:
将所述文本数据输入到文本编码模型,获得所述文本编码模型输出的文本向量;其中,所述文本编码模型为基于样本社交文本数据、所述样本社交文本数据对应的编码向量结果进行训练得到的。
进一步的,所述对所述第一图片和所述第二图片进行重排,输出目标配图,具体包括:
基于融合编码模型和图片美感评分模型,对所述第一图片和所述第二图片进行加权得分,根据加权得分结果进行重排,获得图片重排结果;根据图片重排结果,确定目标配图;
其中,所述融合编码模型是融入情绪特征及语义特征的模型;所述图片美感评分模型是基于样本图片以及所述样本图片对应的美感评分结果进行训练得到的。
进一步的,基于向量查询请求到本地图片向量库进行查询,获得第二图片,具体包括:
基于所述向量查询请求将所述文本向量与所述本地图片向量库中候选图片的向量进行相似度计算,将相似度达到或超过预设相似度阈值的多张图片确定为所述第二图片。
进一步的,获取待配图的文本数据,具体包括:
获取用户输入的待配图的社交文本数据,以及获取所述用户的个性化用户数据;对所述社交文本数据和所述个性化用户数据进行拼接,得到所述文本数据。
进一步的,将所述文本数据输入到情绪关键词组提取模型,获得所述情绪关键词组提取模型输出的情绪关键词组,具体包括:
判断所述文本数据的长度是否大于或等于预设的长度阈值,在所述文本数据的长度大于或等于所述长度阈值的情况下,将所述文本数据输入到情绪关键词组提取模型进行情绪分类,并根据文本数据里的每个词对分类标签的影响权重,提取出文本数据的情绪关键词组。
进一步的,在所述文本数据的长度小于所述长度阈值的情况下,基于所述文本数据生成相应的文本查询请求,基于所述文本查询请求到开放域图片库中进行查询,获得第三图片;
所述方法,还包括:
对所述第一图片、所述第二图片以及所述第三图片进行重排,输出相应的目标配图。
第二方面,本发明还提供一种文本配图装置,包括:
数据获取单元,用于获取待配图的文本数据;
第一图片确定单元,用于将所述文本数据输入到情绪关键词组提取模型,获得所述情绪关键词组提取模型输出的情绪关键词组;其中,所述情绪关键词组提取模型是基于社交样本数据、所述社交样本数据对应的情绪分类标签进行训练得到的;基于所述情绪关键词组到开放域图片库进行查询,获得第一图片;
第二图片确定单元,用于确定所述文本数据的文本向量;生成所述文本向量的向量查询请求,基于向量查询请求到本地图片向量库进行查询,获得第二图片;
目标配图确定单元,用于对所述第一图片和所述第二图片进行重排,输出目标配图。
进一步的,所述第二图片确定单元,具体用于:
将所述文本数据输入到文本编码模型,获得所述文本编码模型输出的文本向量;其中,所述文本编码模型为基于样本社交文本数据、所述样本社交文本数据对应的编码向量结果进行训练得到的。
进一步的,所述目标配图确定单元,具体用于:
基于融合编码模型和图片美感评分模型,对所述第一图片和所述第二图片进行加权得分,根据加权得分结果进行重排,获得图片重排结果;根据图片重排结果,确定目标配图;
其中,所述融合编码模型是融入情绪特征及语义特征的模型;所述图片美感评分模型是基于样本图片以及所述样本图片对应的美感评分结果进行训练得到的。
进一步的,所述第二图片确定单元,具体用于:
基于所述向量查询请求将所述文本向量与所述本地图片向量库中候选图片的向量进行相似度计算,将相似度达到或超过预设相似度阈值的多张图片确定为所述第二图片。
进一步的,所述数据获取单元,具体用于:
获取用户输入的待配图的社交文本数据,以及获取所述用户的个性化用户数据;对所述社交文本数据和所述个性化用户数据进行拼接,得到所述文本数据。
进一步的,所述第一图片确定单元,具体用于:
判断所述文本数据的长度是否大于或等于预设的长度阈值,在所述文本数据的长度大于或等于所述长度阈值的情况下,将所述文本数据输入到情绪关键词组提取模型进行情绪分类,并根据文本数据里的每个词对分类标签的影响权重,提取出文本数据的情绪关键词组。
进一步的,所述第二图片确定单元,具体用于:
在所述文本数据的长度小于所述长度阈值的情况下,基于所述文本数据生成相应的文本查询请求,基于所述文本查询请求到开放域图片库中进行查询,获得第三图片;
所述目标配图确定单元,还用于:
对所述第一图片、所述第二图片以及所述第三图片进行重排,输出相应的目标配图。
第三方面,本发明还提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述计算机程序时实现如上述任意一项所述的文本配图方法的步骤。
第四方面,本发明还提供一种处理器可读存储介质,所述处理器可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如上述任意一项所述的文本配图方法的步骤。
本发明提供的文本配图方法,通过将文本数据输入到情绪关键词组提取模型,获得情绪关键词组提取模型输出的情绪关键词组;然后,生成情绪关键词组的文本查询请求,基于文本查询请求到开放域图片库进行查询,获得第一图片;再然后,确定文本数据的文本向量;生成文本向量的向量查询请求,基于向量查询请求到本地图片向量库进行查询,获得第二图片;最后,对第一图片和第二图片进行重排,输出目标配图;其能够为社交领域的文本数据进行在线自动配图,提高了社交领域的文本配图效率和精确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
图1是本发明实施例提供的文本配图方法的流程示意图;
图2是本发明实施例提供的文本配图方法的编码流程示意图;
图3是本发明实施例提供的文本配图方法的情绪关键词组提取的流程示意图;
图4是本发明实施例提供的文本配图方法的完整流程示意图;
图5是本发明实施例提供的文本配图装置的结构示意图;
图6是本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
下面基于本发明所述的文本配图方法,对其实施例进行详细描述。如图1所示,其为本发明实施例提供的文本配图方法的流程示意图,具体过程包括以下步骤:
步骤101:获取待配图的文本数据。
具体的,所述文本数据包括用户输入的待配图的社交文本数据以及用户的个性化用户数据。其中,所述社交文本数据可以是指在社交软件中输入的文本数据,比如“这场比赛打的太艰难了”等;所述个性化用户数据可以是指输入社交文本数据的用户对应的个性化标签,比如“电竞职业选手”等。
在本发明实施过程中,首先获取用户输入的待配图的社交文本数据以及所述用户的个性化用户数据,然后通过对所述社交文本数据和所述个性化用户数据进行拼接处理,得到所述文本数据。其中,在获取所述用户的个性化用户数据时,可预先针对社交领域的配图要求设计个性化信息库,基于该个性化信息库实现在图文匹配时融入个性化信息,让同样的文本配图效果也能做到千人千面。
步骤102:将所述文本数据输入到情绪关键词组提取模型,获得所述情绪关键词组提取模型输出的情绪关键词组;其中,所述情绪关键词组提取模型是基于社交样本数据、所述社交样本数据对应的情绪分类标签进行训练得到的;基于所述情绪关键词组到开放域图片库进行查询,获得第一图片。
具体的,首先判断所述文本数据的长度是否大于或等于预设的长度阈值,在所述文本数据的长度大于或等于所述长度阈值的情况下,将所述文本数据输入到情绪关键词组提取模型(即情绪Phrase提取模型)进行情绪分类,并根据文本数据里的每个词对分类标签的影响权重,提取出文本数据的情绪关键词组(即提取文本数据中影响情感的关键Phrase)。本发明通过句子整体分析情绪,再抽取相关词,将关键Phrase作为整个文本数据的情绪,让情绪信息更丰富。
需要说明的是,在本发明实施例中,受限于搜索引擎对输入文本数据(即待配图的文本数据)长度的限制,针对某些较长文本数据设计了所述情绪Phrase提取模型,用于做情绪图片匹配。具体的,可首先用传统的方式,例如基于Bert模型+带情绪标签的监督数据(即社交样本数据以及所述社交样本数据对应的情绪分类标签)训练一个情绪分类模型,将训练完成的情绪分类模型作为情绪关键词组提取模型,然后用情绪关键词组提取模型对输入的文本数据进行情绪分类,再根据文本数据里的每个词对分类标签的影响权重,提取出文本数据的情绪Phrase,这样的结果相对一般的情绪分类标签包含更丰富的语义信息,使得匹配的图片更多样。
除此之外,还可在所述文本数据的长度小于所述长度阈值的情况下,基于所述文本数据生成相应的文本查询请求,基于所述文本查询请求到开放域图片库中进行查询,获得第三图片。
如图3所示,以happy,sad两个分类标签为代表举例,首先将文本数据以字为单位切分词(tokenize);将token通过embedding层转化为文本向量然后经过情绪分类模型得到分类标签为happy,置信度为0.98;通过Integarated Gradients 算法计算每个输入embedding对happy这个分类标签0.98得分的影响权重,发现“挺有才挺喜欢”这几个字对应的影响权重最高且超过预定阈值,然后提取出来。
步骤103:确定所述文本数据的文本向量;生成所述文本向量的向量查询请求,基于向量查询请求到本地图片向量库进行查询,获得第二图片。
其中,确定所述文本数据的文本向量,对应的实现过程包括:将所述文本数据输入到文本编码模型(即Text encoder模型),获得所述文本编码模型输出的文本向量。其中,所述文本编码模型为基于样本社交文本数据、所述样本社交文本数据对应的编码向量结果进行训练得到的。基于所述文本向量的向量查询请求到本地图片向量库进行查询,获得第二图片,对应的具体实现过程包括:基于所述向量查询请求将所述文本向量与所述本地图片向量库中候选图片的向量进行相似度计算,将相似度达到或超过预设相似度阈值的多张图片确定为所述第二图片。所述文本编码模型可采用Roberta模型实现。
在图片召回阶段,本发明通过上述步骤102和步骤103会同时利用好本地图片向量库以及开放域图片库,获取到更加有效的图片,即所述第一图片和所述第二图片,以便后续对所述第一图片和所述第二图片进行重排,输出目标配图。进一步的,后续还可获取到第三图片,通过对所述第一图片、所述第二图片以及所述第三图片进行重排,输出相应的目标配图,在此不再详细赘述。
步骤104:对所述第一图片和所述第二图片进行重排,输出目标配图。
具体的,通过融合编码模型和图片美感评分模型,对所述第一图片和所述第二图片进行加权得分,根据加权得分结果进行重排,获得图片重排结果;根据图片重排结果,确定目标配图。也就是,通过最后的重排(ranking)阶段同时考虑语义特征、情绪特征、图片美感信息,给出最恰当的目标配图。其中,所述融合编码模型是融入情绪特征及语义特征的模型;所述图片美感评分模型是基于样本图片以及所述样本图片对应的美感评分结果进行训练得到的。
相应的,在上述步骤102中获得第三图片之后,相应的,本发明所述方法,还可对所述第一图片、所述第二图片以及所述第三图片进行重排,输出相应的目标配图,具体重排过程与对所述第一图片和所述第二图片进行重排过程类似,在此不再重复赘述。
如图2和4所示,以虚拟人发朋友圈为例介绍整个pipeline。
在数据获取阶段,首先获取用户输入的社交文本数据(例如:终于告别单身啦,嘴角忍不住上扬啊)以及用户的标识信息(例如:虚拟人ID)。并用图像编码模块(imageencoder模型)离线计算好本地图片库的所有图片向量形成本地图片向量库用于后续检索。将社交文本数据以及虚拟人ID输入系统。通过虚拟人ID提取虚拟人的人设信息(即个性化用户信息),例如:可爱型甜美少女,职业漫画师。其中,image encoder模型采用swintransformer结构实现。
在Query理解阶段对输入的文本语义、个性化信息、情绪信息进行理解,形成两个Query:一个是向量Query(向量查询请求)用于本地图片向量库的图片召回,获得第二图片;一个是文本Query(即文本查询请求)用于在互联网开放域图片库搜索图片,获得第一图片。
在清洗(filter)阶段通过,通过水印识别、NSFW识别,将所述第一图片和所述第二图片分类去掉不符合要求的图片,保留特定类别的图片用户后续重排处理。在重排处理阶段,对清洗剩下的图片经过融入情绪和语义的融合编码模型(fusion encoder模型)和图片美感评分模型的加权得分,得到最终返回的目标配图。fusion encoder模型选择了transformer encoder,并随机初始化获得。在对比损失loss设计上联合了contrastiveloss 和 image-text matching loss同时训练,从而提高了图像编码阶段和Query理解阶段(即查询请求编码阶段)的效果。
其中,水印识别主要通过一个水印检测模型实现,其backbone可使用FasterRCNN,水印检测模型如果监测图片带有水印,则将水印标注出来;NSFW主要通过分类模型实现,其backnone可使用EfficientNetV2网络。在具体实施过程中,需要提前定义了一些图片类别,然后搜集数据训练了一个图片分类模型,如果图片经过该模型得到的分类属于NSFW就会被过滤。
同时,需要预先训练了一个回归模型来给图片打分,其模型架构可使用visiontransformer。数据集使用公开数据集即可,该数据集已经为每一张图按照标准标定了分数。除此以外,可按照其形式在社交领域标注了部分图片数据。最后通过multi-task(预测图片类别和美感分数)进行训练,得到图片美感评分模型。
需要说明的是,本发明中所述的Query是一个查询请求,比如搜索引擎里输入一个搜索关键字就是一个Query,向量Query就是指将输入数据转换成文本向量形式进行查询。比如输入的文字是“风格:甜美少女;Txt:今天天气可真好”,将其输入文本编码模块(Textencoder),输出一个512维的文本向量,这个512维的文本向量就是所谓的向量Query,然后将其与候选图片的向量(也都是512维)做相似度计算,取回相似度最高的若干图片。其中,所述“甜美少女”即为个性化用户信息,“今天天气可真好”即为社交文本数据。“风格:甜美少女;Txt:今天天气可真好”就是一个文本Query,这个Query会输入到开放域图片库的搜索引擎去匹配相关图片。
在跨模态匹配模型训练阶段搜集了大量社交领域的图文匹配数据,这样的数据相对一般的图文数据来说图片除了表达文字语义,也会通过图片来表达情绪和观点。通过这样的数据学习,跨模态匹配模型可以学习到图片作为情绪、观点表达的特征。另外,在训练阶段,会加入相应的个性化用户信息,跨模态匹配模型经过这样的数据学习就可以学到在不同的个人信息输入时,面对同样的社交文本数据可以匹配更具个性化的图片。除此以外,将召回和重排两阶段的模型进行联合训练,这样可以进一步提升匹配准确率,召回阶段融入情绪、个性化信息的同时也融入美感评分,进一步提升配图效果。如图4所示,所述跨模态匹配模型与所述Query理解阶段相对应,所述召回重排模型与召回阶段以及重排阶段相对应。
本发明实施例所述的文本配图方法,通过将文本数据输入到情绪关键词组提取模型,获得情绪关键词组提取模型输出的情绪关键词组;然后,生成情绪关键词组的文本查询请求,基于文本查询请求到开放域图片库进行查询,获得第一图片;再然后,确定文本数据的文本向量;生成文本向量的向量查询请求,基于向量查询请求到本地图片向量库进行查询,获得第二图片;最后,对第一图片和第二图片进行重排,输出目标配图;其能够为社交领域的文本数据进行在线自动配图,提高了社交领域的文本配图效率和精确度。
与上述提供的一种文本配图方法相对应,本发明还提供一种文本配图装置。由于该装置的实施例相似于上述方法实施例,所以描述得比较简单,相关之处请参见上述方法实施例部分的说明即可,下面描述的文本配图装置的实施例仅是示意性的。请参考图5所示,其为本发明实施例提供的一种文本配图装置的结构示意图。
本发明所述的文本配图装置,具体包括如下部分:
数据获取单元501,用于获取待配图的文本数据;
第一图片确定单元502,用于将所述文本数据输入到情绪关键词组提取模型,获得所述情绪关键词组提取模型输出的情绪关键词组;其中,所述情绪关键词组提取模型是基于社交样本数据、所述社交样本数据对应的情绪分类标签进行训练得到的;基于所述情绪关键词组到开放域图片库进行查询,获得第一图片;
第二图片确定单元503,用于确定所述文本数据的文本向量;生成所述文本向量的向量查询请求,基于向量查询请求到本地图片向量库进行查询,获得第二图片;
目标配图确定单元504,用于对所述第一图片和所述第二图片进行重排,输出目标配图。
进一步的,所述第二图片确定单元,具体用于:
将所述文本数据输入到文本编码模型,获得所述文本编码模型输出的文本向量;其中,所述文本编码模型为基于样本社交文本数据、所述样本社交文本数据对应的编码向量结果进行训练得到的。
进一步的,所述目标配图确定单元,具体用于:
基于融合编码模型和图片美感评分模型,对所述第一图片和所述第二图片进行加权得分,根据加权得分结果进行重排,获得图片重排结果;根据图片重排结果,确定目标配图;
其中,所述融合编码模型是融入情绪特征及语义特征的模型;所述图片美感评分模型是基于样本图片以及所述样本图片对应的美感评分结果进行训练得到的。
进一步的,所述第二图片确定单元,具体用于:
基于所述向量查询请求将所述文本向量与所述本地图片向量库中候选图片的向量进行相似度计算,将相似度达到或超过预设相似度阈值的多张图片确定为所述第二图片。
进一步的,所述数据获取单元,具体用于:
获取用户输入的待配图的社交文本数据,以及获取所述用户的个性化用户数据;对所述社交文本数据和所述个性化用户数据进行拼接,得到所述文本数据。
进一步的,所述第一图片确定单元,具体用于:
判断所述文本数据的长度是否大于或等于预设的长度阈值,在所述文本数据的长度大于或等于所述长度阈值的情况下,将所述文本数据输入到情绪关键词组提取模型进行情绪分类,并根据文本数据里的每个词对分类标签的影响权重,提取出文本数据的情绪关键词组。
进一步的,所述第二图片确定单元,具体用于:
在所述文本数据的长度小于所述长度阈值的情况下,基于所述文本数据生成相应的文本查询请求,基于所述文本查询请求到开放域图片库中进行查询,获得第三图片;
所述目标配图确定单元,还用于:
对所述第一图片、所述第二图片以及所述第三图片进行重排,输出相应的目标配图。
本发明实施例所述的文本配图装置,通过将文本数据输入到情绪关键词组提取模型,获得情绪关键词组提取模型输出的情绪关键词组;然后,生成情绪关键词组的文本查询请求,基于文本查询请求到开放域图片库进行查询,获得第一图片;再然后,确定文本数据的文本向量;生成文本向量的向量查询请求,基于向量查询请求到本地图片向量库进行查询,获得第二图片;最后,对第一图片和第二图片进行重排,输出目标配图;其能够为社交领域的文本数据进行在线自动配图,提高了社交领域的文本配图效率和精确度。
与上述提供的文本配图方法相对应,本发明还提供一种电子设备。由于该电子设备的实施例相似于上述方法实施例,所以描述得比较简单,相关之处请参见上述方法实施例部分的说明即可,下面描述的电子设备仅是示意性的。如图6所示,其为本发明实施例公开的一种电子设备的实体结构示意图。该电子设备可以包括:处理器(processor)601、存储器(memory)602和通信总线603,其中,处理器601,存储器602通过通信总线603完成相互间的通信,通过通信接口604与外部进行通信。处理器601可以调用存储器602中的逻辑指令,以执行文本配图方法,该方法包括:获取待配图的文本数据;将所述文本数据输入到情绪关键词组提取模型,获得所述情绪关键词组提取模型输出的情绪关键词组;其中,所述情绪关键词组提取模型是基于社交样本数据、所述社交样本数据对应的情绪分类标签进行训练得到的;基于所述情绪关键词组到开放域图片库进行查询,获得第一图片;确定所述文本数据的文本向量;生成所述文本向量的向量查询请求,基于向量查询请求到本地图片向量库进行查询,获得第二图片;对所述第一图片和第二图片进行重排,输出目标配图。
此外,上述的存储器602中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:存储芯片、U盘、移动硬盘、只读存储器 (ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在处理器可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的文本配图方法。该方法包括:获取待配图的文本数据;将所述文本数据输入到情绪关键词组提取模型,获得所述情绪关键词组提取模型输出的情绪关键词组;其中,所述情绪关键词组提取模型是基于社交样本数据、所述社交样本数据对应的情绪分类标签进行训练得到的;基于所述情绪关键词组到开放域图片库进行查询,获得第一图片;确定所述文本数据的文本向量;生成所述文本向量的向量查询请求,基于向量查询请求到本地图片向量库进行查询,获得第二图片;对所述第一图片和所述第二图片进行重排,输出目标配图。
又一方面,本发明实施例还提供一种处理器可读存储介质,所述处理器可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的文本配图方法。该方法包括:获取待配图的文本数据;将所述文本数据输入到情绪关键词组提取模型,获得所述情绪关键词组提取模型输出的情绪关键词组;其中,所述情绪关键词组提取模型是基于社交样本数据、所述社交样本数据对应的情绪分类标签进行训练得到的;基于所述情绪关键词组到开放域图片库进行查询,获得第一图片;确定所述文本数据的文本向量;生成所述文本向量的向量查询请求,基于向量查询请求到本地图片向量库进行查询,获得第二图片;对所述第一图片和所述第二图片进行重排,输出目标配图。
所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种文本配图方法,其特征在于,包括:
获取待配图的文本数据;
将所述文本数据输入到情绪关键词组提取模型,获得所述情绪关键词组提取模型输出的情绪关键词组;其中,所述情绪关键词组提取模型是基于社交样本数据、所述社交样本数据对应的情绪分类标签进行训练得到的;基于所述情绪关键词组到开放域图片库进行查询,获得第一图片;
确定所述文本数据的文本向量;生成所述文本向量的向量查询请求,基于向量查询请求到本地图片向量库进行查询,获得第二图片;
对所述第一图片和所述第二图片进行重排,输出目标配图;
所述确定所述文本数据的文本向量,具体包括:
将所述文本数据输入到文本编码模型,获得所述文本编码模型输出的文本向量;其中,所述文本编码模型为基于样本社交文本数据、所述样本社交文本数据对应的编码向量结果进行训练得到的;
基于向量查询请求到本地图片向量库进行查询,获得第二图片,具体包括:
基于所述向量查询请求将所述文本向量与所述本地图片向量库中候选图片的向量进行相似度计算,将相似度达到或超过预设相似度阈值的多张图片确定为所述第二图片;
获取待配图的文本数据,具体包括:
获取用户输入的待配图的社交文本数据,以及获取所述用户的个性化用户数据;对所述社交文本数据和所述个性化用户数据进行拼接,得到所述文本数据。
2.根据权利要求1所述的文本配图方法,其特征在于,所述对所述第一图片和所述第二图片进行重排,输出目标配图,具体包括:
基于融合编码模型和图片美感评分模型,对所述第一图片和所述第二图片进行加权得分,根据加权得分结果进行重排,获得图片重排结果;根据图片重排结果,确定目标配图;
其中,所述融合编码模型是融入情绪特征及语义特征的模型;所述图片美感评分模型是基于样本图片以及所述样本图片对应的美感评分结果进行训练得到的。
3.根据权利要求1所述的文本配图方法,其特征在于,将所述文本数据输入到情绪关键词组提取模型,获得所述情绪关键词组提取模型输出的情绪关键词组,具体包括:
判断所述文本数据的长度是否大于或等于预设的长度阈值,在所述文本数据的长度大于或等于所述长度阈值的情况下,将所述文本数据输入到情绪关键词组提取模型进行情绪分类,并根据文本数据里的每个词对分类标签的影响权重,提取出文本数据的情绪关键词组。
4.根据权利要求3所述的文本配图方法,其特征在于,
在所述文本数据的长度小于所述长度阈值的情况下,基于所述文本数据生成相应的文本查询请求,基于所述文本查询请求到开放域图片库中进行查询,获得第三图片;
所述方法,还包括:
对所述第一图片、所述第二图片以及所述第三图片进行重排,输出相应的目标配图。
5.一种文本配图装置,其特征在于,包括:
数据获取单元,用于获取待配图的文本数据;
第一图片确定单元,用于将所述文本数据输入到情绪关键词组提取模型,获得所述情绪关键词组提取模型输出的情绪关键词组;其中,所述情绪关键词组提取模型是基于社交样本数据、所述社交样本数据对应的情绪分类标签进行训练得到的;基于所述情绪关键词组到开放域图片库进行查询,获得第一图片;
第二图片确定单元,用于确定所述文本数据的文本向量;生成所述文本向量的向量查询请求,基于向量查询请求到本地图片向量库进行查询,获得第二图片;
目标配图确定单元,用于对所述第一图片和所述第二图片进行重排,输出目标配图;
所述第二图片确定单元,具体用于:
将所述文本数据输入到文本编码模型,获得所述文本编码模型输出的文本向量;其中,所述文本编码模型为基于样本社交文本数据、所述样本社交文本数据对应的编码向量结果进行训练得到的;
所述第二图片确定单元,具体用于:
基于所述向量查询请求将所述文本向量与所述本地图片向量库中候选图片的向量进行相似度计算,将相似度达到或超过预设相似度阈值的多张图片确定为所述第二图片;
所述数据获取单元,具体用于:
获取用户输入的待配图的社交文本数据,以及获取所述用户的个性化用户数据;对所述社交文本数据和所述个性化用户数据进行拼接,得到所述文本数据。
6.一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任意一项所述的文本配图方法的步骤。
7.一种处理器可读存储介质,所述处理器可读存储介质上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至4任意一项所述的文本配图方法的步骤。
CN202211496854.4A 2022-11-28 2022-11-28 一种文本配图方法及装置 Active CN115546355B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211496854.4A CN115546355B (zh) 2022-11-28 2022-11-28 一种文本配图方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211496854.4A CN115546355B (zh) 2022-11-28 2022-11-28 一种文本配图方法及装置

Publications (2)

Publication Number Publication Date
CN115546355A CN115546355A (zh) 2022-12-30
CN115546355B true CN115546355B (zh) 2023-03-31

Family

ID=84722103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211496854.4A Active CN115546355B (zh) 2022-11-28 2022-11-28 一种文本配图方法及装置

Country Status (1)

Country Link
CN (1) CN115546355B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10558701B2 (en) * 2017-02-08 2020-02-11 International Business Machines Corporation Method and system to recommend images in a social application
CN107357889B (zh) * 2017-07-11 2020-07-17 北京工业大学 一种基于内容或情感相似性的跨社交平台图片推荐算法
CN110096641A (zh) * 2019-03-19 2019-08-06 深圳壹账通智能科技有限公司 基于图像分析的图文匹配方法、装置、设备及存储介质
CN110020411B (zh) * 2019-03-29 2020-10-09 上海掌门科技有限公司 图文内容生成方法及设备
CN112016573B (zh) * 2020-10-16 2021-04-30 北京世纪好未来教育科技有限公司 弹幕生成方法、装置、电子设备及计算机存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张明西;乐水波;李学民;董一鹏.文本配图系统的设计与实现.包装工程.2020,(19),第261-267页. *

Also Published As

Publication number Publication date
CN115546355A (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
CN106328147B (zh) 语音识别方法和装置
CN107609101B (zh) 智能交互方法、设备及存储介质
CN107797984B (zh) 智能交互方法、设备及存储介质
CN108304439B (zh) 一种语义模型优化方法、装置及智能设备、存储介质
CN109726274B (zh) 问题生成方法、装置及存储介质
CN104598644B (zh) 喜好标签挖掘方法和装置
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN108538286A (zh) 一种语音识别的方法以及计算机
CN112711948A (zh) 一种中文句子的命名实体识别方法及装置
CN111708878B (zh) 一种体育文本摘要提取方法、装置、存储介质及设备
CN106649739B (zh) 多轮交互信息继承识别方法、装置以及交互系统
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN113297891A (zh) 视频信息处理方法、装置及电子设备
CN110737774A (zh) 图书知识图谱的构建、图书推荐方法、装置、设备及介质
CN110263218A (zh) 视频描述文本生成方法、装置、设备和介质
CN108153802A (zh) 对话代理、响应语句生成方法、以及计算机可读取的非易失性存储介质
CN115546355B (zh) 一种文本配图方法及装置
CN109145261B (zh) 一种生成标签的方法和装置
CN114528851B (zh) 回复语句确定方法、装置、电子设备和存储介质
CN114547266B (zh) 信息生成模型的训练方法、生成信息的方法、装置和设备
CN115617974A (zh) 一种对话处理方法、装置、设备及存储介质
CN115858733A (zh) 跨语言实体词检索方法、装置、设备及存储介质
CN116775815A (zh) 对话数据的处理方法、装置、电子设备及存储介质
CN112686059A (zh) 文本翻译方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant