CN112270163A

CN112270163A - 一种文本生成方法及装置、存储介质

Info

Publication number: CN112270163A
Application number: CN202011420122.8A
Authority: CN
Inventors: 石凡; 李浩然; 左佳伟; 潘滢炜; 姚霆; 王林芳; 梅涛; 周伯文
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2021-01-26
Anticipated expiration: 2040-12-07
Also published as: CN112270163B

Abstract

本发明实施例公开了一种文本生成方法及装置、存储介质，包括在获取到目标对象的图像信息和目标对象的文字描述信息的情况下，将图像信息和文字描述信息输入图文特征提取模型中，得到目标对象的全局图像特征、局部图像特征和文字特征；对全局图像特征、局部图像特征和文字特征进行处理，得到目标对象的关联特征，并根据关联特征确定出目标对象的关联对象；根据关联特征，生成目标对象和关联对象的组合文本，以在显示目标对象的情况下关联显示组合文本。

Description

一种文本生成方法及装置、存储介质

技术领域

本发明涉及文本生成技术领域，尤其涉及一种文本生成方法及装置、存储介质。

背景技术

随着互联网技术的不断发展，网络会向用户推送与用户搜索的目标对象关联的关联对象，以供用户快速找到关联对象，可以快速对目标对象和关联对象进行处理。

在现有技术中，是获取客户端对对象处理时的历史信息，从历史信息中确定与目标对象关联的关联对象，在目标对象为客户端未处理过的对象、却依然确定出关联对象的情况下，降低了确定出目标对象的关联对象时准确性。

发明内容

为解决上述技术问题，本发明实施例期望提供一种文本生成方法及装置、存储介质，能够提高文本生成装置确定目标对象的关联对象时的准确性。

本发明的技术方案是这样实现的：

本申请实施例提供一种文本生成方法，包括：

在获取到目标对象的图像信息和所述目标对象的文字描述信息的情况下，将所述图像信息和所述文字描述信息输入图文特征提取模型中，得到所述目标对象的全局图像特征、局部图像特征和文字特征；

对所述全局图像特征、所述局部图像特征和所述文字特征进行处理，得到所述目标对象的关联特征，并根据所述关联特征确定出所述目标对象的关联对象；

根据所述关联特征，生成所述目标对象和所述关联对象的组合文本，以在显示所述目标对象的情况下关联显示所述组合文本。

本申请实施例提供了一种文本生成装置，所述装置包括：

输入单元，用于在获取到目标对象的图像信息和所述目标对象的文字描述信息的情况下，将所述图像信息和所述文字描述信息输入图文特征提取模型中，得到所述目标对象的全局图像特征、局部图像特征和文字特征；

处理单元，用于对所述全局图像特征、所述局部图像特征和所述文字特征进行处理，得到所述目标对象的关联特征；

确定单元，用于根据所述关联特征确定出所述目标对象的关联对象；

生成单元，用于根据所述关联特征，生成所述目标对象和所述关联对象的组合文本，以在显示所述目标对象的情况下关联显示所述组合文本。

本申请实施例提供了一种文本生成装置，所述装置包括：

存储器、处理器和通信总线，所述存储器通过所述通信总线与所述处理器进行通信，所述存储器存储所述处理器可执行的文本生成的程序，当所述文本生成的程序被执行时，通过所述处理器执行上述所述的文本生成方法。

本申请实施例提供了一种存储介质，其上存储有计算机程序，应用于文本生成装置，其特征在于，该计算机程序被处理器执行时实现上述所述的文本生成方法。

本发明实施例提供了一种文本生成方法及装置、存储介质，文本生成方法包括：在获取到目标对象的图像信息和目标对象的文字描述信息的情况下，将图像信息和文字描述信息输入图文特征提取模型中，得到目标对象的全局图像特征、局部图像特征和文字特征；对全局图像特征、局部图像特征和文字特征进行处理，得到目标对象的关联特征，并根据关联特征确定出目标对象的关联对象；根据关联特征，生成目标对象和关联对象的组合文本，以在显示目标对象的情况下关联显示组合文本。采用上述方法实现方案，文本生成装置通过将获取到的目标对象的图像信息和目标对象的文字描述信息输入图文特征提取模型中，直接就可以得到目标对象的全局图像特征、局部图像特征和文字特征，通过全局图像特征、局部图像特征和文字特征来确定出目标对象的关联特征，以及确定出目标对象的关联对象，在目标对象为客户端未处理过的对象的情况下，文本生成装置也可以利用图文特征提取模型，从目标对象的图像信息和文字描述信息中得到目标对象的全局图像特征、局部图像特征和文字特征，从而确定出目标对象的关联对象，提高了文本生成装置目标对象的关联对象时的准确性。

附图说明

图1为本申请实施例提供的一种文本生成方法流程图；

图2为本申请实施例提供的一种示例性的文本生成装置的组成结构示意图；

图3为本申请实施例提供的一种文本生成装置的组成结构示意图一；

图4为本申请实施例提供的一种文本生成装置的组成结构示意图二。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

多商品搭配是实现商品跨品类组合营销，为商家丰富销售场景，为消费者提供多元化服务的主要方式。从电商的角度来讲，商品间如何组合搭配，可依据的信息很多，如：功能、外观、销售状况、成本利润等，均可作为参考依据。此外，组合营销的不仅仅是简单的商品组合搭配策略，整套搭配的营销文案生成也是影响营销方案是否有效的中要因素，因此如何让系统充分利用商品信息生成多商品搭配组合、如何自动挖掘单个商品卖点形成整套搭配营销文案供电商商家进行选用。

实施例一

本申请实施例提供了一种文本生成方法，图1为本申请实施例提供的一种文本生成方法流程图，如图1所示，文本生成方法可以包括：

S101、在获取到目标对象的图像信息和目标对象的文字描述信息的情况下，将图像信息和文字描述信息输入图文特征提取模型中，得到目标对象的全局图像特征、局部图像特征和文字特征。

本申请实施例提供的一种文本生成方法适用于利用文本生成装置生成组合文本的场景下。

在本申请实施例中，文本生成装置可以以各种形式来实施。例如，本申请中描述的文本生成装置可以包括诸如手机、照相机、平板电脑、笔记本电脑、掌上电脑、个人数字助理（Personal Digital Assistant，PDA）、便捷式媒体播放器（Portable Media Player，PMP）、导航装置、可穿戴设备、智能手环、计步器等装置，以及诸如数字TV、台式计算机等装置。

在本申请实施例中，目标对象可以为商品，目标对象也可以为其他的物体，具体的可根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，若目标对象为商品，则目标对象的图像信息可以为该商品的图像信息，目标对象的文字描述信息可以为该商品的广告词信息。

在本申请实施例中，若目标对象为商品，则文本生成装置可以在该商品的广告页上获取该商品的图像信息和文字描述信息，文本生成装置也可以从其他的地方获取到该商品的图像信息和文字描述信息，具体的可根据实际情况进行确定，本申请实施例对此不作限定。

需要说明的是，商品的图像信息可以为商品的一张图像信息，也可以为商品的多张图像信息，具体的可根据实际情况进行确定，本申请实施例对此不作限定。

还需要说明的是，若商品的图像信息为商品的一张图像信息，则该一张图像信息可以为该商品的主视图信息；若商品的图像信息为商品的多张图像信息，则，该多张图像可以为商品不同角度的图像信息，其中，多张图像信息中包括商品的主视图信息。

在本申请实施例中，文本生成装置中设置有图文特征提取模型，文本生成装置可以利用图文特征提取模型，从图像信息和文字描述信息中，得到目标对象的全局图像特征、局部图像特征和文字特征。

需要说明的是，图文特征提取模型输出的全局图像特征的数量可以为一个，也可以为多个，具体的可根据实际情况进行确定，本申请实施例对此不作限定。

需要说明的是，图文特征提取模型输出的局部图像特征的数量可以为一个，也可以为多个，具体的可根据实际情况进行确定，本申请实施例对此不作限定。

需要说明的是，图文特征提取模型输出的文字特征的数量可以为一个，也可以为多个，具体的可根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，若目标对象为商品，具体的目标对象可以为衣服，全局图像特征可以为图像信息中衣服的颜色、纹理、版型等的信息，全局图像特征还可以为图像信息中的衣服的像素信息，具体的可根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，若目标对象具体为衣服，则局部图像特征可以为衣服的衣领处的特征，也可以为衣服的袖口处的特征，还可以为衣服的其他部位的特征，具体的可根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，局部图像特征为衣服的衣领处的特征，则具体的局部图像特征可以为衣领处的样式、颜色、纹理等信息，局部图像特征可以为衣服的的衣领处的像素信息，具体的可根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，文本生成装置利用图文特征提取模型得到全局图像特征和局部图像特征和文字特征之后，文本生成装置就将全局图像特征和局部图像特征和文字特征进行融合，从而得到图文特征。

需要说明的是，全局图像特征和局部图像特征统称为目标对象的图像特征。

在本申请实施例中，图文特征提取模型具体包括图像特征提取模型和文字特征提取模型，图像特征提取模型用于从目标对象的图像信息中，得到图像特征；文字特征提取模型用于从目标对象的文字描述信息中，得到文字特征。

需要说明的是，图像特征提取模型可以为计算机视觉深度学习模型（如：卷积神经网络（Convolutional Neural Networks，CNN）），也可以为其他的特征提取模型，具体的可根据实际情况进行确定，本申请实施例对此不作限定。

需要说明的是，文字特征提取模型可以为自然语言处理深度学习模型（Bidirectional Encoder Representations from Transformers，BERT），也可以为其他的特征提取模型，具体的可根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，文本生成装置在将图像信息和文字描述信息输入图文特征提取模型中，得到目标对象的全局图像特征、局部图像特征和文字特征之前，文本生成装置还可以将样本图像信息和样本文字描述信息输入原始图文特征提取模型中，得到输出全局图像特征和输出局部图像特征；文本生成装置利用原始图文特征提取模型，在样本文字描述信息中，查找与输出全局图像特征和输出局部图像特征对应的特征，得到输出文字特征；文本生成装置基于输出全局图像特征、输出局部图像特征、输出文字特征、样本全局图像特征、样本局部图像特征和样本文字特征，对原始图文特征提取模型进行训练，得到图文特征提取模型。

在本申请实施例中，文本生成装置中设置有原始图文特征提取模型，文本生成装置可以利用样本图像信息、样本文字描述信息、样本全局图像特征、样本局部图像特征和样本文字特征对原始图文特征提取模型进行训练，从而得到图文特征提取模型。

在本申请实施例中，文本生成装置基于输出全局图像特征、输出局部图像特征、输出文字特征、样本全局图像特征、样本局部图像特征和样本文字特征，对原始图文特征提取模型进行训练，得到图文特征提取模型的过程，可以为文本生成装置将输出全局图像特征、输出局部图像特征、输出文字特征和样本全局图像特征、样本局部图像特征和样本文字特征进行匹配，在文本生成装置确定出输出全局图像特征、输出局部图像特征、输出文字特征和样本全局图像特征、样本局部图像特征和样本文字特征匹配的情况下，文本生成装置就将原始图文特征提取模型作为图文特征提取模型。在文本生成装置确定出输出全局图像特征、输出局部图像特征、输出文字特征和样本全局图像特征、样本局部图像特征和样本文字特征不匹配的情况下，文本生成装置就调整原始图文特征提取模型中的参数，得到调整后的图文特征提取模型，将样本图像信息、样本文字描述信息输入调整后的图文特征提取模型中，得到调整后的输出全局图像特征、输出局部图像特征、输出文字特征，文本生成装置通过持续调整的图文特征提取模型，并将得到调整后的输出全局图像特征、输出局部图像特征、输出文字特征和样本全局图像特征、样本局部图像特征和样本文字特征进行匹配，直至文本生成装置确定出调整后的输出全局图像特征、输出局部图像特征、输出文字特征和样本全局图像特征、样本局部图像特征和样本文字特征匹配的情况下，文本生成装置就将调整后的图文特征提取模型作为图文特征提取模型。

在本申请实施例中，原始图文特征提取模型包括原始图像特征提取模型和原始文字特征提取模型，文本生成装置通过对原始图像特征提取模型和原始文字特征提取模型进行训练，从而得到图像特征提取模型和文字特征提取模型。

在本申请实施例中，文本生成装置可以先获取搭配商品数据集中商品的图片来训练原始图像特征提取模型，采用度量类损失函数（如triplet loss）将相搭商品在特征空间中进行拉近，将非相搭商品在特征空间中推远，从而提取中间层的局部图像特征和全局图像特征，并在搭配商品的广告词中确定与局部图像特征和全局图像特征对应的文字特征，然后将局部图像特征、全局图像特征和文字特征进行组合，训练文字特征提取模型，最终将局部图像特征、全局图像特征和文字特征进行拼接，联合训练原始图像特征提取模型和原始文字特征提取模型，从而得到图文特征提取模型。

S102、对全局图像特征、局部图像特征和文字特征进行处理，得到目标对象的关联特征，并根据关联特征确定出目标对象的关联对象。

在本申请实施例中，文本生成装置将图像信息和文字描述信息输入图文特征提取模型中，得到目标对象的全局图像特征、局部图像特征和文字特征之后，文本生成装置就可以对全局图像特征、局部图像特征和文字特征进行处理，得到目标对象的关联特征，并根据关联特征确定出目标对象的关联对象。

在本申请实施例中，关联特征可以为文本生成装置确定出来的目标对象与关联对象相关联的特征。

在本申请实施例中，文本生成装置对全局图像特征、局部图像特征和文字特征进行处理，得到目标对象的关联特征的过程，包括：文本生成装置根据全局图像特征、局部图像特征和文字特征，从文字描述信息中确定目标对象对应的特征描述信息；文本生成装置对全局图像特征、局部图像特征和文字特征和特征描述信息进行组合，得到组合特征；文本生成装置根据组合特征从特征描述信息中确定关联特征。

在本申请实施例中，若目标对象为商品，则特征描述信息可以为该商品的卖点描述信息。

在本申请实施例中，全局图像特征包括多个全局图像特征，局部图像特征包括多个局部图像特征，文字特征包括多个文字特征；文本生成装置根据全局图像特征、局部图像特征和文字特征，从文字描述信息中确定目标对象对应的特征描述信息的过程，包括：文本生成装置分别确定多个局部图像特征对应的多个第一特征值、多个全局图像特征对应的多个第二特征值和多个文字特征对应的多个文字特征值；文本生成装置根据多个第一特征值和多个第二特征值，得到多个图像特征值；文本生成装置确定多个图像特征值和多个文字特征值之间的多个差值；文本生成装置在多个差值中的第一差值小于预设阈值的情况下，在文字描述信息中查找与第一差值对应的特征描述信息。

需要说明的是，多个局部图像特征和多个第一特征值一一对应，多个全局图像特征和多个第二特征值一一对应，多个文字特征和多个文字特征值一一对应，即一个局部图像特征对应一个第一特征值，一个全局图像特征对应一个第二特征值，一个文字特征对应一个文字特征值。

在本申请实施例中，预设阈值可以为文本生成装置中配置的阈值，也可以为文本生成装置从接收到的信息中获取到的阈值，具体的可根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，文本生成装置还包括编码器，文本生成装置在得到特征描述信息的情况下，文本生成装置就可以利用编码器对特征描述信息进行编码，从而得到处理特征。

需要说明的是，处理特征可以为向量，利用向量来表征该处理特征，也可以利用其它的方式来表征处理特征，具体的可根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，文本生成装置还包括解码器，文本生成装置也可以利用解码器对处理特征进行解码，从而得到特征描述信息。

在本申请实施例中，文本生成装置包括生成式摘要模型（如pointer generatornetwork），文本生成装置可以利用生成式摘要模型，以全局图像特征、局部图像特征和文字特征作为指导信息从文字描述信息中确定出特征描述信息。

在本申请实施例中，文本生成装置在得到特征描述信息之后，文本生成装置还可以利用信息质量评价机制（Coverage Mechanism），对特征描述信息进行通顺、降低重复度等优化等处理。

在本申请实施例中，文本生成装置对全局图像特征、局部图像特征、文字特征和特征描述信息进行组合，得到组合特征的过程，包括文本生成装置利用编码器对特征描述信息进行编码，得到处理特征；文本生成装置将全局图像特征、局部图像特征、文字特征和处理特征进行组合，得到初始组合特征；文本生成装置确定初始组合特征的初始特征值；文本生成装置确定多个待选择对象对应的多个待选择特征值；文本生成装置分别确定初始特征值与多个待选择特征值之间的多个相似度；文本生成装置在多个相似度中的第一相似度大于相似度阈值的情况下，将第一相似度对应的第一组合特征作为组合特征。

需要说明的是，第一组合特征为初始组合特征中的部分组合特征。

在本申请实施例中，文本生成装置还可以利用搭配训练数据，对处理特征的搭配关系统进行构建，仅在训练数据中产生过搭配的特征中选择图文特征相近的对象作为关联对象，如此，避免将对象间的图文特征接近但实际上将不合理的待选择对象与目标对象进行搭配，也就避免了图文特征相冲突仍能被组合为搭配的情况。

示例性的，目标对象可以为卫衣，处理特征可以为卫衣的卖点特征，该卫衣的卖点特征是保暖，与卫衣的图文特征相近的裤子卖点特征是凉爽，由于这两卖点特征在训练数据中未出现过搭配，则不会生成为一套搭配。

可以理解的是，由于卖点搭配关系（组合特征）的存在，使得文本生成装置对目标对象和关联对象的搭配生成的原因可追溯、可解释，也为后续目标对象和关联对象之间的搭配文案的生成提供了可靠的信息。

在本申请实施例中，文本生成装置在多个相似度中的第一相似度大于相似度阈值的情况下，文本生成装置就将第一相似度对应的第一待选择对象作为关联对象。

在本申请实施例中，文本生成装置根据组合特征，从特征描述信息中确定出关联特征的过程，包括：文本生成装置从特征描述信息中筛选出组合特征对应至少一个目标信息；文本生成装置对至少一个目标信息进行处理，得到关联特征。

在本申请实施例中，文本生成装置可以根据组合特征，利用深度学习模型（如长短期记忆模型（Long short-term Memory，LSTM））从特征描述信息中筛选出至少一个目标信息。

在本申请实施例中，文本生成装置也可以根据待选择对象对应的组合特征，利用深度学习模型从待选择对象对应的特征描述信息中筛选出至少一个待选择目标信息。

需要说明的是，待选择对象可以为文本生成装置获取到的除目标对象外的其他对象。

示例性的，目标对象为商品，待选择对象也为商品，具体的：目标对象可以为短袖，待选择对象可以为裙子，待选择对象还可以为裤子，具体的可根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，文本生成装置可以对至少一个目标信息进行编码处理，从而得到关联特征。

需要说明的是，文本生成装置可以将至少一个目标信息和至少一个待选择目标信息进行匹配；将目标对象的图文特征和待选择对象的待选择图文特征进行匹配；将处理特征和待选择对象的待选择处理特征进行匹配，从而从待选择对象中筛选出关联对象。

S103、根据关联特征，生成目标对象和关联对象的组合文本，以在显示目标对象的情况下关联显示组合文本。

在本申请实施例中，文本生成装置对全局图像特征、局部图像特征和文字特征进行处理，得到目标对象的关联特征，并根据关联特征确定出目标对象的关联对象之后，文本生成装置就可以根据关联特征，生成目标对象和关联对象的组合文本，以在显示目标对象的情况下关联显示组合文本。

需要说明的是，组合文本具体可以为目标对象和关联对象的搭配文案，即为目标对象和关联对象的搭配理由。

在本申请实施例中，文本生成装置将至少一个目标信息和至少一个待选择目标信息进行匹配；将目标对象的图文特征和待选择对象的待选择图文特征进行匹配；将处理特征和待选择对象的待选择处理特征进行匹配，从而从待选择对象中筛选出关联对象之后，文本生成装置再将处理特征和关联对象的关联处理特征进行融合，并筛选处理特征和关联处理特征之间的相同特征，对相同特征进行解码，得到相同信息，并以一定的形式将相同信息、特征描述信息和关联处理特征对应的关联信息进行组合，从而得到目标对象和关联对象的组合文本，以在显示目标显示对象的情况下，显示组合文本，从而关联显示关联对象。

示例性的，目标对象可以为沙发，关联对象可以为衣柜，目标对象的特征描述信息可以为沙发的卖点描述信息，关联处理特征对应的关联信息可以为衣柜的卖点描述信息，相同信息可以为沙发、衣柜相同的卖点描述信息，如：这是一件（沙发的第一个卖点描述信息）沙发，（沙发的第二个卖点描述信息），（沙发的第三个卖点描述信息），搭配一组（衣柜的第一个卖点描述信息）衣柜，整套组合（沙发和衣柜的第一个相同卖点描述信息），（沙发和衣柜的第二个相同卖点描述信息）。

示例性的，如图2所示，文本生成装置在获取到目标对象的图像信息和目标对象的文字描述信息的情况下，文本生成装置就将图像信息和文字描述信息输入图文特征提取模块中的图文特征提取模型中，得到目标对象的图文特征（全局图像特征、局部图像特征和文字特征）；文本生成装置利用处理模块根据图文特征，从文字描述信息中确定目标对象对应的特征描述信息，利用编码器对特征描述信息进行编码，得到处理特征，文本生成装置利用搭配组合模块对图文特征和特征描述信息进行组合，得到组合特征；文本生成装置利用搭配理由生成模块根据组合特征，从特征描述信息中确定出关联特征，从而根据关联特征，生成目标对象和关联对象的组合文本，以在显示目标对象的情况下关联显示组合文本。

可以理解的是，文本生成装置通过将获取到的目标对象的图像信息和目标对象的文字描述信息输入图文特征提取模型中，直接就可以得到目标对象的全局图像特征、局部图像特征和文字特征，通过全局图像特征、局部图像特征和文字特征来确定出目标对象的关联特征，以及确定出目标对象的关联对象，在目标对象为客户端未处理过的对象的情况下，文本生成装置也可以利用图文特征提取模型，从目标对象的图像信息和文字描述信息中得到目标对象的全局图像特征、局部图像特征和文字特征，从而确定出目标对象的关联对象，提高了文本生成装置目标对象的关联对象时的准确性。

实施例二

基于实施例一同一发明构思，本申请实施例提供了一种文本生成装置1，对应于一种文本生成方法；图3为本申请实施例提供的一种文本生成装置的组成结构示意图一，该文本生成装置1可以包括：

输入单元11，用于在获取到目标对象的图像信息和所述目标对象的文字描述信息的情况下，将所述图像信息和所述文字描述信息输入图文特征提取模型中，得到所述目标对象的全局图像特征、局部图像特征和文字特征；

处理单元12，用于对所述全局图像特征、所述局部图像特征和所述文字特征进行处理，得到所述目标对象的关联特征；

确定单元13，用于根据所述关联特征确定出所述目标对象的关联对象；

生成单元14，用于根据所述关联特征，生成所述目标对象和所述关联对象的组合文本，以在显示所述目标对象的情况下关联显示所述组合文本。

在本申请的一些实施例中，所述装置还包括训练单元和查找单元；

所述输入单元11，用于将样本图像信息和样本文字描述信息输入原始图文特征提取模型，得到输出全局图像特征和输出局部图像特征；

所述查找单元，用于在所述样本文字描述信息中，查找与所述输出全局图像特征和所述输出局部图像特征对应的特征，得到输出文字特征；

所述训练单元，用于基于所述输出全局图像特征、所述输出局部图像特征、所述输出文字特征、样本全局图像特征、样本局部图像特征和样本文字特征，对所述原始图文特征提取模型进行训练，得到所述图文特征提取模型。

在本申请的一些实施例中，所述装置还包括组合单元；

所述确定单元13，用于根据所述全局图像特征、所述局部图像特征和所述文字特征，从所述文字描述信息中确定所述目标对象对应的特征描述信息；根据组合特征，从所述特征描述信息中确定出所述关联特征；

所述组合单元，用于对所述全局图像特征、所述局部图像特征、所述文字特征和所述特征描述信息进行组合，得到所述组合特征。

在本申请的一些实施例中，所述装置还包括筛选单元；

所述筛选单元，用于从所述特征描述信息中筛选出所述组合特征对应的至少一个目标信息；

所述处理单元12，用于对所述至少一个目标信息进行处理，得到所述关联特征。

在本申请的一些实施例中，所述全局图像特征包括多个全局图像特征；所述局部图像特征包括多个局部图像特征；所述文字特征包括多个文字特征；

所述确定单元13，用于分别确定所述多个局部图像特征对应的多个第一特征值、所述多个全局图像特征对应的多个第二特征值和所述多个文字特征对应的多个文字特征值；所述多个局部图像特征和所述多个第一特征值一一对应，所述多个全局图像特征和所述多个第二特征值一一对应，所述多个文字特征和所述多个文字特征值一一对应；根据所述多个第一特征值和所述多个第二特征值，得到多个图像特征值；确定所述多个图像特征值和多个文字特征值之间的多个差值；

所述查找单元，用于在所述多个差值中的第一差值小于预设阈值的情况下，在所述文字描述信息中查找出与所述第一差值对应的所述特征描述信息。

需要说明的是，在实际应用中，上述输入单元11、处理单元12、确定单元13和生成单元14可由文本生成装置1上的处理器15实现，具体为CPU（Central Processing Unit，中央处理器）、MPU（Microprocessor Unit，微处理器）、DSP（Digital Signal Processing，数字信号处理器）或现场可编程门阵列（FPGA，Field Programmable Gate Array）等实现；上述数据存储可由文本生成装置1上的存储器16实现。

本发明实施例还提供了一种文本生成装置1，如图4所示，所述文本生成装置1包括：处理器15、存储器16和通信总线17，所述存储器16通过所述通信总线17与所述处理器15进行通信，所述存储器16存储所述处理器15可执行的程序，当所述程序被执行时，通过所述处理器15执行如上述所述的文本生成方法。

在实际应用中，上述存储器16可以是易失性存储器（volatile memory），例如随机存取存储器（Random-Access Memory，RAM）；或者非易失性存储器（non-volatile memory），例如只读存储器（Read-Only Memory，ROM），快闪存储器（flash memory），硬盘（Hard DiskDrive，HDD）或固态硬盘（Solid-State Drive，SSD）；或者上述种类的存储器的组合，并向处理器15提供指令和数据。

本发明实施例提供了一种计算机可读存储介质，其上有计算机程序，所述程序被处理器15执行时实现如上述所述的文本生成方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器和光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种文本生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述图像信息和所述文字描述信息输入图文特征提取模型中，其中，所述图文特征提取模型由如下步骤处理得到：

将样本图像信息和样本文字描述信息输入原始图文特征提取模型，得到输出全局图像特征和输出局部图像特征；

在所述样本文字描述信息中，查找与所述输出全局图像特征和所述输出局部图像特征对应的特征，得到输出文字特征；

基于所述输出全局图像特征、所述输出局部图像特征、所述输出文字特征、样本全局图像特征、样本局部图像特征和样本文字特征，对所述原始图文特征提取模型进行训练，得到所述图文特征提取模型。

3.根据权利要求1所述的方法，其特征在于，所述对所述全局图像特征、所述局部图像特征和所述文字特征进行处理，得到所述目标对象的关联特征，包括：

根据所述全局图像特征、所述局部图像特征和所述文字特征，从所述文字描述信息中确定所述目标对象对应的特征描述信息；

对所述全局图像特征、所述局部图像特征、所述文字特征和所述特征描述信息进行组合，得到组合特征；

根据所述组合特征，从所述特征描述信息中确定出所述关联特征。

4.根据权利要求3所述的方法，其特征在于，所述根据所述组合特征，从所述特征描述信息中确定出所述关联特征，包括：

从所述特征描述信息中筛选出所述组合特征对应的至少一个目标信息；

对所述至少一个目标信息进行处理，得到所述关联特征。

5.根据权利要求3所述的方法，其特征在于，所述全局图像特征包括多个全局图像特征，所述局部图像特征包括多个局部图像特征，所述文字特征包括多个文字特征，所述根据所述全局图像特征、所述局部图像特征和所述文字特征，从所述文字描述信息中确定所述目标对象对应的特征描述信息，包括：

分别确定所述多个局部图像特征对应的多个第一特征值、所述多个全局图像特征对应的多个第二特征值和所述多个文字特征对应的多个文字特征值；所述多个局部图像特征和所述多个第一特征值一一对应，所述多个全局图像特征和所述多个第二特征值一一对应，所述多个文字特征和所述多个文字特征值一一对应；

根据所述多个第一特征值和所述多个第二特征值，得到多个图像特征值；

确定所述多个图像特征值和多个文字特征值之间的多个差值；

在所述多个差值中的第一差值小于预设阈值的情况下，在所述文字描述信息中查找出与所述第一差值对应的所述特征描述信息。

6.一种文本生成装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括训练单元和查找单元；

所述输入单元，用于将样本图像信息和样本文字描述信息输入原始图文特征提取模型，得到输出全局图像特征和输出局部图像特征；

8.根据权利要求6所述的装置，其特征在于，所述装置还包括组合单元；

所述确定单元，用于根据所述全局图像特征、所述局部图像特征和所述文字特征，从所述文字描述信息中确定所述目标对象对应的特征描述信息；根据组合特征，从所述特征描述信息中确定出所述关联特征；

9.一种文本生成装置，其特征在于，所述装置包括：

存储器、处理器和通信总线，所述存储器通过所述通信总线与所述处理器进行通信，所述存储器存储所述处理器可执行的文本生成的程序，当所述文本生成的程序被执行时，通过所述处理器执行如权利要求1至5任一项所述的方法。

10.一种存储介质，其上存储有计算机程序，应用于文本生成装置，其特征在于，该计算机程序被处理器执行时实现权利要求1至5任一项所述的方法。