CN115129914A

CN115129914A - 图文数据处理方法、装置、电子设备及计算机存储介质

Info

Publication number: CN115129914A
Application number: CN202110298383.5A
Authority: CN
Inventors: 蒲黎明; 赵中州; 何水玲; 林旭鸣; 张佶
Original assignee: Alibaba Singapore Holdings Pte Ltd
Current assignee: Alibaba Innovation Co
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2022-09-30
Also published as: US20220301285A1

Abstract

本申请实施例提供了一种图文数据处理方法、装置、电子设备及计算机存储介质。该用于自动生成包含文字与图片的图文描述档案，包括：获取与一目标对象相关的文本素材；根据所述目标对象的信息获取与该目标对象相关的多个图片素材；提取图片素材的第一特征信息和文本素材的第二特征信息；根据所述第一特征信息和所述第二特征信息，判断与所述文本素材相匹配的一或多个图片素材；组合所述文本素材和相匹配的一或多个图片素材以产生目标对象的图文描述档案。该方法配图效果好。

Description

图文数据处理方法、装置、电子设备及计算机存储介质

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种图文数据处理方法、装置、电子设备及计算机存储介质。

背景技术

图文描述档案用于通过文字和图片的方式描述目标对象，以虚拟直播场景为例，在通过虚拟对象(以下称虚拟主播)进行直播时，图文描述档案可以作为直播剧本使用。现有技术中通常是人工创建包含文字和配图的图文描述档案。这种配图方式存在的问题在于：人工为文字配图的效率低、劳动量大，而且配图质量依赖配图的人工的能力，不能保证配图效率和配图质量。

发明内容

有鉴于此，本申请实施例提供一种图文数据处理方案，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种图文数据处理方法，用于自动生成包含文字与图片的图文描述档案，包括：获取与一目标对象相关的文本素材；根据所述目标对象的信息获取与该目标对象相关的多个图片素材；提取图片素材的第一特征信息和文本素材的第二特征信息；根据所述第一特征信息和所述第二特征信息，判断与所述文本素材相匹配的一或多个图片素材；组合所述文本素材和相匹配的一或多个图片素材以产生目标对象的图文描述档案。

根据本申请实施例的第二方面，提供了一种图文数据处理装置，用于自动生成包含文字与图片的图文描述档案，包括：第一获取模块，用于获取与一目标对象相关的文本素材；第二获取模块，用于根据所述目标对象的信息获取与该目标对象相关的多个图片素材；提取模块，用于提取图片素材的第一特征信息和文本素材的第二特征信息；判断模块，用于根据所述第一特征信息和所述第二特征信息，判断与所述文本素材相匹配的一或多个图片素材；组合模块，用于组合所述文本素材和相匹配的一或多个图片素材以产生目标对象的图文描述档案。

根据本申请实施例的第三方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面所述的图文数据处理方法对应的操作。

根据本申请实施例的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的图文数据处理方法。

根据本申请实施例提供的图文数据处理方案，通过提取目标对象的文本素材的第二特征信息和图片素材的第一特征信息，并根据第一特征信息和第二特征信息，为文本素材选取配合的图片素材，使得匹配出的图片素材与文本素材的语义相关度较高，进而使得基于文本素材和匹配出图片素材产生的图文描述档案中文本素材和图片素材的相关性好、使用的效果更好，而且这种自动生成图文描述档案的方式成本低、效率高，劳动强度低。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1A为根据本申请实施例一的一种图文数据处理方法的步骤流程图；

图1B为图1A所示实施例中的一种场景示例的示意图；

图2为根据本申请实施例二的一种图文数据处理方法的步骤流程图；

图3为根据本申请实施例三的一种图文数据处理装置的结构框图；

图4为根据本申请实施例四的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

实施例一

参照图1A，示出了本申请实施例一的图文数据处理方法的步骤流程图。

在本实施例中，该方法包括以下步骤：

步骤S102：获取与一目标对象相关的文本素材。

目标对象可以是商品、建筑物或者其他任何需要通过图文描述档案描述的对象。

文本素材可以是用于描述目标对象的说明文本，例如为在虚拟直播场景中使用的文字剧本。该文本素材可以是XML格式或者其他格式的结构化的文本，也可以是纯文本剧本。结构化文本是指其中的至少部分句子或段落具有相应的标签。

步骤S104：根据所述目标对象的信息获取与该目标对象相关的多个图片素材。

目标对象的信息可以是目标对象的名称或者品类名等。图片素材可以从目标对象的详情页、说明书等材料中获取。

步骤S106：提取图片素材的第一特征信息和文本素材的第二特征信息。

第一特征信息用于描述图片素材，例如，图片素材是衣服相关的图片，第一特征信息可以为“模特全身图”、“模特半身图”、“领型细节图”或“材质细节图”等。

第一特征信息可以通过机器学习模型对图片素材进行特征提取或识别图片素材中的文字的方式获得。

第二特征信息用于描述文本素材中的至少部分句子的特征，例如，文本素材是对衣服的描述，则第二特征信息可以是“领型-V领”和“材质-涤纶”等。

若文本素材是结构化剧本，则可以从中解析出标签，并根据标签确定第二特征信息。或者，若文本素材是纯文本剧本则可以通过训练的用于特征提取的机器学习模型(如LSTM模型和transformer模型等)进行特征提取的方式获得。

步骤S108：根据所述第一特征信息和所述第二特征信息，判断与所述文本素材相匹配的一或多个图片素材。

在一可行方式中，根据第二特征信息指示的属性与第一特征信息匹配，从而确定文本素材相匹配的图片素材。

例如，文本素材中的句子的第二特征信息为“领型-V领”，则从多个图片素材中选取第一特征信息为“细节图”或者“领部细节图”等的图片素材作为候选的图片素材。

或者，为了进一步提升文本素材匹配的图片素材的准确性，可以针对句子的第二特征信息(如“领型-V领”)构建问题向量，并基于候选的图片素材构建答案向量，将问题向量和多个答案向量进行匹配，从中选择出适当的答案向量对应的图片素材作为匹配的图片素材。这样可以实现对文本素材中句子进行配图，从而使得配图的粒度更细，效果更好。

步骤S110：组合所述文本素材和相匹配的一或多个图片素材以产生目标对象的图文描述档案。

例如，从匹配的图片素材中选取一或多个图片素材添加到文本素材中，从而形成图文描述档案。

通过本方法，可以根据文本素材的第二特征信息和图片素材的第一特征信息自动地为文本素材选取匹配的图片素材，使得图片素材展示的语义和文本素材的语义匹配，这样就解决了现有技术中通过人工配图存在的劳动强度大、速度慢，质量不稳定的问题，而且，保证了图片素材与文本素材的语义贴合性好，配图精准。

下面结合图1B，以一个具体的使用场景为例，对本方法的实现过程进行说明如下：

以虚拟直播场景为例，通过本方法生成的图文描述档案可以是虚拟主播使用的剧本，虚拟主播在进行直播时根据图文描述档案的内容对商品进行介绍。

例如，目标对象是服装类商品。目标对象相关的文本素材可以从其说明书中提取或者也可以通过其他方式获得，本场景中对此不作限制。目标对象的图片素材可以从商品的介绍页面、详情页等中获得。

针对图片素材，可以通过对图片素材进行特征提取和/或图片中文字识别等方式获得第一特征信息。如图片素材A的第一特征信息为“模特正面图-领型细节图”，图片素材B的第一特征信息为“领型细节图”，图片素材C的第一特征信息为“材质细节图”等。

针对文本素材，若为纯文本剧本则可以通过语义识别模型和/或关键词提取模型等方式获得其中至少部分句子的第二特征信息；或者，若为结构化剧本则可以通过解析标签的方式获得其中至少部分句子的第二特征信息。例如，句子A“这种V领的特别好看”的第二特征信息是“领型-V领”。

基于文本素材的第二特征信息，可以从图片素材中匹配出第一特征信息与第二特征信息匹配的图片素材。例如，基于第二特征信息中的“领型”，从多个图片素材中匹配出第一特征信息包括“领型细节图”的图片素材。

根据匹配出的图片素材，可以从中选择一或多个添加到文本素材中，从而产生目标对象的图文描述档案。

这样就可以实现自动为目标对象生成图文描述档案，而且保证图文描述档案中的内容与目标对象的相关性较高，而且不需要人工配图，降低了成本。虚拟主播通过该图文描述档案进行直播，可以使虚拟主播的语言表达和展示的图片素材相关性更好、更加和谐、适配，从而保证了直播效果，也可以提升虚拟主播的真实程度。此外，还可以用于生成宣传文档，通过传播渠道或社交平台分享给用户，或是用于教学文件制作，浓缩课程知识点给老师作为授课参考，或是给学生作为学习引导。

通过本实施例，通过提取目标对象的文本素材的第二特征信息和图片素材的第一特征信息，并根据第一特征信息和第二特征信息，为文本素材选取配合的图片素材，使得匹配出的图片素材与文本素材的语义相关度较高，进而使得基于文本素材和匹配出图片素材产生的图文描述档案中文本素材和图片素材的相关性好、使用的效果更好，而且这种自动生成图文描述档案的方式成本低、效率高，劳动强度低。

本实施例的图文数据处理方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、移动终端(如手机、PAD等)和PC机等。

实施例二

参照图2，示出了本申请实施例二的图文数据处理方法的步骤流程示意图。

在本实施例中，以目标对象是服装类商品为例，对该方法的实现过程进行说明如下：

该方法包括以下步骤：

步骤S202：获取与一目标对象相关的文本素材。

所述文本素材包括文字脚本中的至少部分文字和/或非脚本文字。

文字脚本可以是预先编写的，用于对目标对象进行说明和介绍的脚本。该文字脚本可以应用到虚拟直播场景中，或者其他场景中。

文字脚本可以包括用于对目标对象的属性进行说明的句子，还可以包括衔接不同句子的衔接句和引导观看对象操作的引导句等等，但不限于此。文本素材可以是文字脚本中的全部句子，也可以其中用于对目标对象的属性进行说明的句子，对此不作限制。

非脚本文字可以是说明书等，文本素材可以包括说明书中的至少部分句子。

步骤S204：根据所述目标对象的信息获取与该目标对象相关的多个图片素材。

在一种可行方式中，步骤S204包括以下子步骤：

子步骤S2041：获取一或多个原始图片。

原始图片可以通过任何适当的方式获取，如从说明书中提取或者从详情页、商品展示页面等提取，本实施例对此不作限制。

子步骤S2042：根据所述目标对象的信息，从所述原始图片中获得与所述目标对象相关的多个图片素材，所述图片素材为完整的所述原始图片或所述原始图片中的一部分。

目标对象的信息可以是名称、品类名或者其他适当的信息，本实施例对此不作限制。

图片素材可以是从原始图片中截取出的一部分，也可以是完整的原始图片。

在一示例中，对于尺寸过大的原始图片可以对其进行切分处理，也即子步骤S2042可以通过下述的过程实现：

过程A1：对长度大于或等于长度设定值的所述原始图片进行切分处理，并获得多个切分图片。

长度设定值可以根据需要确定，例如长度设定值为切分出的切分图片的长度的1.5倍。在本实施例中，该长度指图片高度方向上的长度。

通过对原始图片进行切分处理，可以将长度过长的原始图片切分为长度较为适宜的切分图片，以便于后续进行处理，而且还可以保证单个切分图片中的语义信息较为单纯，从而提升候选第一特征信息的准确度，而且可以避免过长的原始图片超出可展示的范围，而影响后续的展示效果。

例如，商品的详情页作为原始图片时，由于商品详情页可能是一个长图，其中可能包含商品的参数、模特正面图、不同的细节图等，为了更便于处理，可以将原始图片按照不同的语义切分为多个切分图片。

如，将商品的参数、模特正面图、材质细节图和领口细节图分别切分成独立的切分图片。这样每个切分图片的语义更加简单且单一，从而使得后续提取的第一特征信息准确性更好。

对原始图片进行切分处理可以通过具有切分功能的机器学习模型实现，或者按照设定的长度进行切分。

过程B1：以所述切分图片和/或长度小于所述长度设定值的所述原始图片作为候选图片，获取所述候选图片的文字信息。

为了能够更好地将目标对象与候选图片进行匹配，可以对候选图片进行OCR识别(光学字符识别)等方式获得其中的文字信息。对于没有文字的候选图片，识别出的文字可以为空。

除了识别出文字信息外，还可以包括相应的置信度，用于指示识别出的文字信息的准确程度。若文字信息识别为空，则其置信度置为“0”或其他设定值。

过程C1：根据所述文字信息和所述目标对象的信息，从所述候选图片中获取与所述目标对象相关的多个图片素材。

对于文字信息不为空的候选图片，可以直接根据文字信息确定是否可以作为图片素材。如目标对象为服装，则选取文字信息包括“材质”、“V领”、“模特正面图”的候选图片作为图片素材。

对于文字信息为空的候选图片，可以通过训练的机器学习模型确定是否可以作为图片素材。如将目标对象的信息和候选图片输入到训练的机器学习模型中，通过机器学习模型判断候选图片与目标对象是否相关，若相关则作为图片素材。

步骤S206：提取图片素材的第一特征信息和文本素材的第二特征信息。

在一种可行方式中，步骤S206中的所述提取图片素材的第一特征信息通过下述的子步骤S2061～子步骤S2062实现。步骤S206中的所述提取文本素材的第二特征信息可以通过下述的子步骤S2063实现。需要说明的是，子步骤S2061～子步骤S2063之间并不限制严格的执行时序，子步骤S2061和子步骤S2063可以并行执行。

子步骤S2061：获得图像分类模型对所述图片素材的第一分类结果和根据所述图片素材中的文字信息确定的第二分类结果。

图片分类模型用于对图片素材进行分类，图片分类模型可以是训练的，CNN模型、RCNN模型或者fast RCNN模型等。

通过图像分类模型可以检测出候选图片中的特征，进而依据检测出的特征预测图片素材的类别以及置信度作为第一分类结果。第一分类结果例如为：{“模特正面图”，90}、{“领型细节图”，95}或{“材质细节图”，86}等等。该置信度用于指示预测的准确程度。

对于有文字信息的图片素材，根据文字信息的语义和/或关键词、以及识别文字信息时获得的第二分类结果。例如，文字信息中包含“材质”、“V领”、“模特正面图”等，则第二分类结果为{“材质细节图”、90}、{“模特正面图”、95}等。

子步骤S2062：根据所述第一分类结果和所述第二分类结果中置信度高的分类结果指示的类别，确定所述第一特征信息，所述第一特征信息用于指示所述图片素材的所属类别。

第一种情况中，若第一分类结果的置信度较高，则根据其指示的类别确定第一特征信息。如第一分类结果指示类别为“材质细节图”，则确定第一特征信息为“材质细节图”。

第二种情况中，若第二分类结果的置信度较高，则根据其指示的类别确定第二特征信息。如第二分类结果指示类别为“模特正面图”，则确定第一特征信息为“模特正面图”。

通过提取图片素材的文字信息并使用分类模型对其分类进行预测从而获得第一分类结果和第二分类结果及相应的置信度，再根据置信度确定图片素材的第一特征信息，提升了对图片素材的第一特征信息提取的准确度，而且解决了无文字图片素材的分类问题，使得图片素材的第一特征信息能够更好地体现图片素材的特征及图片内容的语义。

子步骤S2063：根据所述文本素材中用于描述所述目标对象属性的属性句子，确定所述属性句子对应的所述第二特征信息。

由于文本素材中不仅包括用于描述目标对象属性的属性句子，而且可以包括衔接句等，通常配图是针对属性句子，以通过配图结合属性句子更好地对目标对象进行说明和展示，因此文本素材的第二特征信息主要包括属性句子的第二特征信息。

例如，属性句子为“这种V领真是特别好看”，则通过语义识别可以确定属性句子对应的第二特征信息为“领型-V领”，其中的领型可以认为是属性，V领可以认为是属性值。

又例如，对于结构化的文本素材，可以通过对属性句子的标签进行解析，获取标签，并根据标签确定第二特征信息。如解析出的标签为“领型-V领”，则第二特征信息也可以为“领型-V领”。

步骤S208：根据所述第一特征信息和所述第二特征信息，判断与所述文本素材相匹配的一或多个图片素材。

为了保证文本素材和图片素材之间匹配的准确性，且使无文字图片素材也可以与文本素材进行正确匹配，解决无文字的图片素材的匹配的问题，步骤S208包括以下子步骤：

步骤S2081：根据所述文本素材中属性句子对应的第二特征信息，选取第一特征信息和所述第二特征信息的匹配程度大于或等于匹配阈值的图片素材作为第一候选图片素材。

匹配阈值可以根据需要确定，本实施例对此不作限制。例如，匹配阈值为70％、75％、80％、或90％等。

以第二特征信息为“领型-V领”为例，与第二特征信息的匹配程度大于或等于匹配阈值的第一特征信息可以是“领型细节图”、“模特正面图”等可能展示领型的图片素材。这些图片素材可以作为第一候选图片素材。

步骤S2082：根据所述文本素材的第二特征信息，使用图文匹配模型，从所述图片素材中确定与所述文本素材匹配的图片素材作为第二候选图片素材。

例如，步骤S2082可以通过下述过程实现：

过程A2：根据所述文本素材中属性句子的所述第二特征信息构建问题向量，并根据所述图片素材构建答案向量。

例如，第二特征信息为“领型-V领”，基于此可以构建问题语句，如“领型是V领么”。该问题语句可以通过Word embedding的方式获得对应的问题向量，或者采用其他的方式获得问题语句对应的问题向量。

例如，将图片素材中各像素的颜色值转换为对应的答案向量，或者采用其他适当的方式获得答案向量。

过程B2：将所述问题向量和各所述答案向量输输入到所述图文匹配模型中，并根据所述图文匹配模型输出的所述答案向量与所述问题向量的匹配度，确定所述文本素材匹配的第二候选图片素材。

图文匹配模型例如视觉问答模型(Visual Question Answering)可以对多模态信息(如文字信息和图片信息)进行处理，从而从多个图片素材中确定与问题向量匹配的答案向量，也就是获得与第二特征信息匹配的图片素材。

利用视觉问答模型实现了针对文本形式的属性句子，可以从多个图片素材中获得匹配的第二候选图片素材的效果。

步骤S2083：从所述第一候选图片素材和所述第二候选图片素材中选取与所述文本素材的至少部分属性句子匹配的图片素材。

例如，步骤S2083包括通过以下过程实现：

过程A3：根据所述第一候选图片素材与所述文本素材中属性句子的匹配程度、所述第二候选图片素材与所述文本素材中属性句子的匹配程度，对所述第一候选图片素材和所述第二候选图片素材进行排序。

由于第一候选图片素材和第二候选图片素材中可能存在重合的图片素材，因此可以对第一候选图片素材和第二候选图片素材进行去重和过滤处理。

过滤处理例如：按照尺寸将不符合尺寸要求的候选图片素材过滤掉。将长度过长或者过短，宽度过宽或过窄，长宽比不符合要求(如非3：2、2：3、16：9、16：10等)的候选图片素材过滤掉。

又例如，按照质量对选出的候选图片素材进行过滤，如将分辨率过低的或者过高的候选图片素材过滤掉。

去重处理例如对于重复的第一候选图片素材和第二候选图片素材，根据各自的匹配度确定新的匹配度，并去除一个候选图片素材。新的匹配度可以取较高的匹配度，也可以将两个匹配度进行加权求和。

这样就解决了一张图片素材可能同时作为第一候选图片素材和第二候选图片素材被召回的问题，也即解决了不同的召回方式可能召回重复图片素材的问题。

在进行排序时，将第一候选图片素材和第二候选图片素材按照匹配度从高到低进行合并排序。

过程B3：根据排序结果，确定与所述文本素材中属性句子匹配的图片素材。

例如，基于排序结果选取TopN作为与属性句子匹配的图片素材。后续可以从这些匹配的图片素材中选取一个或多个作为该属性句子的配图。

可选地，步骤S208包括以下子步骤：

子步骤S2084：从所述文本素材的除所述属性句子之外的剩余句子中确定与至少一个所述属性句子的语义相似度大于或等于语义阈值的目标剩余句子。

剩余句子可以是未找到相匹配的图片素材的句子，该句子可以是属性句子，也可以是非属性句子。通过相似度识别模型识别剩余句子和属性句子的相似度。若剩余句子和属性句子的语义相似度大于或等于语义阈值，则将其作为目标剩余句子。

语义阈值可以根据需求确定，例如为90％。

子步骤S2085：根据所述目标剩余句子对应的所述属性句子对应的所述排序结果，确定与所述目标剩余句子匹配的图片素材。

例如，属性句子B没有相匹配的图片素材，但是属性句子B与属性句子A的语义相似度较高，则可以从属性句子A的相匹配的图片素材中选取一个作为属性句子B的配图。这样可以实现为剩余句子配图。

步骤S210：组合所述文本素材和相匹配的一或多个图片素材以产生目标对象的图文描述档案。

在一种可行方式中，针对文本素材中的属性句子均可以从与之相匹配的一或多个图片素材中选取至少一个作为其配图。

例如，文本素材中包括属性句子A，针对属性句子A与之相匹配的图片素材为3个，则可以从这3个中随机选取一个作为配图。

将文本素材和属性句子相应的匹配进行组合从而获得图文描述档案。这样就实现了句子级的配图，使得配图的粒度更细，配图效果更好。

当然，在其他实施例中，不仅可以组合文本素材和图片素材，还可以将文本素材、图片素材和音频素材进行组合，形成更加丰富的图文描述档案。音频素材可以是语音或音乐的至少之一。

通过上述方式，可以根据句子描述的属性召回图片素材，进而实现自动为文本素材配图，解决了人工配图成本高、配置困难的问题，同时也实现了句子级甚至更细粒度的配图，避免了常用方式中一个文本仅有一个配图的问题。

在获得图片素材时，通过图片素材的第一特征信息与文本素材的第二特征信息进行映射，实现了无文字的图片素材的召回，解决了按照OCR内容进行配图过程中容易配置多文字图片、难以配置精美无文字图片的问题。

通过本方法可以自动为文字素材配图，从而生成图文描述档案。而且该方法可以自动地从商品详情页和主图、副图中挖掘图片素材，以进行细粒度句子配图，句子配图率和准确率都较高，此外，能够快速地拓展多行业的图文剧本，具有较好的行业通用性，能够应对复杂需求，而且基于商品属性的图片挖掘过程，可以用作商品图片、详情页等内容的结构化。

实施例三

参照图3，示出了本申请实施例三的图文数据处理装置的结构框图。

在本实施例中，图文数据处理装置用于自动生成包含文字与图片的图文描述档案，该装置包括：

第一获取模块302，用于获取与一目标对象相关的文本素材；

第二获取模块304，用于根据所述目标对象的信息获取与该目标对象相关的多个图片素材；

提取模块306，用于提取图片素材的第一特征信息和文本素材的第二特征信息；

判断模块308，用于根据所述第一特征信息和所述第二特征信息，判断与所述文本素材相匹配的一或多个图片素材；

组合模块310，用于组合所述文本素材和相匹配的一或多个图片素材以产生目标对象的图文描述档案。

可选地，所述第二获取模块304用于获取一或多个原始图片；根据所述目标对象的信息，从所述原始图片中获得与所述目标对象相关的多个图片素材，所述图片素材为完整的所述原始图片或所述原始图片中的一部分。

可选地，所述第二获取模块304用于在根据所述目标对象的信息，从所述原始图片中获得与所述目标对象相关的多个图片素材时，对长度大于或等于长度设定值的所述原始图片进行切分处理，并获得多个切分图片；以所述切分图片和/或长度小于所述长度设定值的所述原始图片作为候选图片，获取所述候选图片的文字信息；根据所述文字信息和所述目标对象的信息，从所述候选图片中获取与所述目标对象相关的多个图片素材。

可选地，所述提取模块306用于在提取图片素材的第一特征信息时，获得图像分类模型对所述图片素材的第一分类结果和根据所述图片素材中的文字信息确定的第二分类结果；根据所述第一分类结果和所述第二分类结果中置信度高的分类结果指示的类别，确定所述第一特征信息，所述第一特征信息用于指示所述图片素材的所属类别。

可选地，所述提取模块306用于在所述提取文本素材的第二特征信息时，根据所述文本素材中用于描述所述目标对象属性的属性句子，确定所述属性句子对应的所述第二特征信息。

可选地，所述判断模块308用于根据所述文本素材中属性句子对应的第二特征信息，选取第一特征信息和所述第二特征信息的匹配程度大于或等于匹配阈值的图片素材作为第一候选图片素材；根据所述文本素材的第二特征信息，使用图文匹配模型，从所述图片素材中确定与所述文本素材匹配的图片素材作为第二候选图片素材；从所述第一候选图片素材和所述第二候选图片素材中选取与所述文本素材的至少部分属性句子匹配的图片素材。

可选地，所述判断模块308用于在根据所述文本素材的第二特征信息，使用图文匹配模型，从所述图片素材中确定与所述文本素材匹配的图片素材作为第二候选图片素材时，根据所述文本素材中属性句子的所述第二特征信息构建问题向量，并根据所述图片素材构建答案向量；将所述问题向量和各所述答案向量输输入到所述图文匹配模型中，并根据所述图文匹配模型输出的所述答案向量与所述问题向量的匹配度，确定所述文本素材匹配的第二候选图片素材。

可选地，所述判断模块308用于在从所述第一候选图片素材和所述第二候选图片素材中选取与所述文本素材的至少部分属性句子匹配的图片素材时，根据所述第一候选图片素材与所述文本素材中属性句子的匹配程度、所述第二候选图片素材与所述文本素材中属性句子的匹配程度，对所述第一候选图片素材和所述第二候选图片素材进行排序；根据排序结果，确定与所述文本素材中属性句子匹配的图片素材。

可选地，所述判断模块308用于从所述文本素材的除所述属性句子之外的剩余句子中确定与至少一个所述属性句子的语义相似度大于或等于语义阈值的目标剩余句子；根据所述目标剩余句子对应的所述属性句子对应的所述排序结果，确定与所述目标剩余句子匹配的图片素材。

可选地，所述文本素材包括文字脚本中的至少部分文字和/或非脚本文字。

本实施例的图文数据处理装置用于实现前述多个方法实施例中相应的数据处理方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的图文数据处理装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

实施例四

参照图4，示出了根据本申请实施例四的一种电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图4所示，该电子设备可以包括：处理器(processor)402、通信接口(Communic4tions Interf4ce)404、存储器(memory)406、以及通信总线408。

其中：

处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。

通信接口404，用于与其它电子设备或服务器进行通信。

处理器402，用于执行程序410，具体可以执行上述图文数据处理方法实施例中的相关步骤。

具体地，程序410可以包括程序代码，该程序代码包括计算机操作指令。

处理器402可能是中央处理器CPU，或者是特定集成电路4SIC(4pplic4tionSpecific Integr4ted Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个4SIC。

存储器406，用于存放程序410。存储器406可能包含高速R4M存储器，也可能还包括非易失性存储器(non-vol4tile memory)，例如至少一个磁盘存储器。

程序410具体可以用于使得处理器402执行前述图文数据处理方法对应的操作。

程序410中各步骤的具体实现可以参见上述图文数据处理方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的图文数据处理方法。此外，当通用计算机访问用于实现在此示出的图文数据处理方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的图文数据处理方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种图文数据处理方法，用于自动生成包含文字与图片的图文描述档案，包括：

获取与一目标对象相关的文本素材；

根据所述目标对象的信息获取与该目标对象相关的多个图片素材；

提取图片素材的第一特征信息和文本素材的第二特征信息；

根据所述第一特征信息和所述第二特征信息，判断与所述文本素材相匹配的一或多个图片素材；

组合所述文本素材和相匹配的一或多个图片素材以产生目标对象的图文描述档案。

2.根据权利要求1所述的方法，其中，所述根据所述目标对象的信息获取与该目标对象相关的多个图片素材，包括：

获取一或多个原始图片；

根据所述目标对象的信息，从所述原始图片中获得与所述目标对象相关的多个图片素材，所述图片素材为完整的所述原始图片或所述原始图片中的一部分。

3.根据权利要求2所述的方法，其中，所述根据所述目标对象的信息，从所述原始图片中获得与所述目标对象相关的多个图片素材，包括：

对长度大于或等于长度设定值的所述原始图片进行切分处理，并获得多个切分图片；

以所述切分图片和/或长度小于所述长度设定值的所述原始图片作为候选图片，获取所述候选图片的文字信息；

根据所述文字信息和所述目标对象的信息，从所述候选图片中获取与所述目标对象相关的多个图片素材。

4.根据权利要求3所述的方法，其中，所述提取图片素材的第一特征信息，包括：

获得图像分类模型对所述图片素材的第一分类结果和根据所述图片素材中的文字信息确定的第二分类结果；

根据所述第一分类结果和所述第二分类结果中置信度高的分类结果指示的类别，确定所述第一特征信息，所述第一特征信息用于指示所述图片素材的所属类别。

5.根据权利要求1所述的方法，其中，所述提取文本素材的第二特征信息，包括：

根据所述文本素材中用于描述所述目标对象属性的属性句子，确定所述属性句子对应的所述第二特征信息。

6.根据权利要求1所述的方法，其中，所述根据所述第一特征信息和所述第二特征信息，判断与所述文本素材相匹配的一或多个图片素材，包括：

根据所述文本素材中属性句子对应的第二特征信息，选取第一特征信息和所述第二特征信息的匹配程度大于或等于匹配阈值的图片素材作为第一候选图片素材；

根据所述文本素材的第二特征信息，使用图文匹配模型，从所述图片素材中确定与所述文本素材匹配的图片素材作为第二候选图片素材；

从所述第一候选图片素材和所述第二候选图片素材中选取与所述文本素材的至少部分属性句子匹配的图片素材。

7.根据权利要求6所述的方法，其中，所述根据所述文本素材的第二特征信息，使用图文匹配模型，从所述图片素材中确定与所述文本素材匹配的图片素材作为第二候选图片素材，包括：

根据所述文本素材中属性句子的所述第二特征信息构建问题向量，并根据所述图片素材构建答案向量；

将所述问题向量和各所述答案向量输输入到所述图文匹配模型中，并根据所述图文匹配模型输出的所述答案向量与所述问题向量的匹配度，确定所述文本素材匹配的第二候选图片素材。

8.根据权利要求6所述的方法，其中，所述从所述第一候选图片素材和所述第二候选图片素材中选取与所述文本素材的至少部分属性句子匹配的图片素材，包括：

根据所述第一候选图片素材与所述文本素材中属性句子的匹配程度、所述第二候选图片素材与所述文本素材中属性句子的匹配程度，对所述第一候选图片素材和所述第二候选图片素材进行排序；

根据排序结果，确定与所述文本素材中属性句子匹配的图片素材。

9.根据权利要求8所述的方法，其中，所述根据所述第一特征信息和所述第二特征信息，判断与所述文本素材相匹配的一或多个图片素材，还包括：

从所述文本素材的除所述属性句子之外的剩余句子中确定与至少一个所述属性句子的语义相似度大于或等于语义阈值的目标剩余句子；

根据所述目标剩余句子对应的所述属性句子对应的所述排序结果，确定与所述目标剩余句子匹配的图片素材。

10.根据权利要求1-9中任一项所述的方法，其中，所述文本素材包括文字脚本中的至少部分文字和/或非脚本文字。

11.一种图文数据处理装置，用于自动生成包含文字与图片的图文描述档案，包括：

第一获取模块，用于获取与一目标对象相关的文本素材；

第二获取模块，用于根据所述目标对象的信息获取与该目标对象相关的多个图片素材；

提取模块，用于提取图片素材的第一特征信息和文本素材的第二特征信息；

判断模块，用于根据所述第一特征信息和所述第二特征信息，判断与所述文本素材相匹配的一或多个图片素材；

组合模块，用于组合所述文本素材和相匹配的一或多个图片素材以产生目标对象的图文描述档案。

12.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-10中任一项所述的图文数据处理方法对应的操作。

13.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-10中任一所述的图文数据处理方法。