CN107766349A

CN107766349A - 一种生成文本的方法、装置、设备及客户端

Info

Publication number: CN107766349A
Application number: CN201610675834.1A
Authority: CN
Inventors: 赵小伟; 孙佰贵; 华先胜
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-08-16
Filing date: 2016-08-16
Publication date: 2018-03-06
Anticipated expiration: 2036-08-16
Also published as: CN107766349B

Abstract

本申请实施例公开了一种生成文本的方法、装置、设备及客户端，所述方法包括：接收第一图像，计算所述第一图像的图像特征信息，确定所述第一图像对应的第一类目信息；在所述第一类目中根据所述第一图像的图像特征信息，获取与第一图像对应的第一预设个数候选产品的产品信息；根据所述候选产品的产品信息，计算所述第一图像对应的第一描述特征信息；根据所述第一描述特征信息及预先建立的图像描述特征信息与文本关键词的映射关系，确定与所述第一图像对应的第一文本。本申请实施例可以降低计算机的工作量。

Description

一种生成文本的方法、装置、设备及客户端

技术领域

本申请涉及计算机数据处理技术领域，特别涉及一种生成文本的方法、装置、设备及客户端。

背景技术

随着电子商务和移动互联网的发展，越来越多的卖家中客户端来发布自己的商品信息。目前，为了进一步简化卖家发布产品的流程，客户端可以根据卖家上传或者拍摄的商品图片自动生成商品文本标题。

现有的生成文本标题的方法通常可以包括：对样本图像提取CNN(卷积神经网络)特征信息，从样本图像对应的标题信息中提取文本关键词；对所述样本图像的CNN特征和文本关键词，利用Recurrent Neural Network(RNN，循环神经网络)或Long-Short TermMemory(LSTM，长短期记忆模型)进行训练学习，得到图像特征信息和文本关键词的映射关系。当接收到输入图像时，可以提取所述输入图像的CNN特征信息，利用学习得到的映射关系，确定与该CNN特征信息对应的文本关键词，将所述得到的文本关键词作为该输入图像对应的文本标题。

发明人发现现有技术中至少存在如下问题：现有的生成文本标题方法中的CNN特征通常用于刻画产品的图像特征，但是产品一般存在有很多类别数目，对于图像特征比较类似的产品无法区分其类目，所以所述的CNN特征信息难以准确地区分多种类目下不同类目产品的图像特征。因此，利用现有技术生产文本标题时，需要对每个类目分别建立图像特征信息与文本关键词的映射关系，因此，现有的生成文本的方法的类目可扩展性差，计算机工作量较大。

发明内容

本申请实施例的目的是提供一种生成文本的方法、装置、设备及客户端，以提高类目的扩展性，并降低计算机的工作量。

为解决上述技术问题，本申请实施例提供一种生成文本的方法、装置、设备及客户端是这样实现的：

一种生成文本的方法，包括：

接收第一图像，计算所述第一图像的图像特征信息，确定所述第一图像对应的第一类目信息；

在所述第一类目中根据所述第一图像的图像特征信息，获取与第一图像对应的第一预设个数候选产品的文本信息；

根据所述第一预设个数候选产品的文本信息，计算所述第一图像对应的第一描述特征信息；

根据所述第一描述特征信息及预先建立的图像描述特征信息与文本关键词的映射关系，确定与所述第一图像的第一描述特征信息对应的第一文本。

一种生成文本的装置，包括：

图像特征信息及类目信息确定模块，用于接收第一图像，计算所述第一图像的图像特征信息，确定所述第一图像对应的第一类目信息；

候选产品信息获取模块，用于在所述第一类目中根据所述第一图像的图像特征信息，获取与第一图像对应的第一预设个数候选产品的文本信息；

第一描述特征信息计算模块，用于根据所述第一预设个数候候选产品的文本信息，计算所述第一图像对应的第一描述特征信息；

第一文本确定模块，用于根据所述第一描述特征信息及预先建立的图像描述特征信息与文本关键词的映射关系，确定与所述第一图像的第一描述特征信息对应的第一文本。

一种生成文本的设备，包括：通信模块、处理器和存储器；

所述通信模块用于进行网络数据通信；

所述存储器用于存储数据；

所述处理器通过所述通信模块接收第一图像，计算所述第一图像的图像特征信息，确定所述第一图像对应的第一类目信息；在所述第一类目中根据所述第一图像的图像特征信息，获取与第一图像对应的第一预设个数候选产品的文本信息；根据所述第一预设个数候候选产品的文本信息，计算所述第一图像对应的第一描述特征信息；所述处理器从所述存储器读取图像描述特征信息与文本关键词的映射关系；根据所述第一描述特征信息及所述图像描述特征信息与文本关键词的映射关系，确定与所述第一图像的第一描述特征信息对应的第一文本。

一种设备，包括：通信模块、处理器和存储器；

所述通信模块用于进行网络数据通信；

所述存储器用于存储数据；

所述处理器通过所述通信模块获取样本图像，计算所述样本图像的图像特征信息，确定所述样本图像对应的类目信息；在所述样本图像对应的类目中根据所述样本图像的图像特征信息，确定与所述样本图像对应的第三预设个数候选产品；所述处理器通过所述通信模块获取所述第三预设个数候选产品的标题信息，对所述第三预设个数候选产品的标题信息进行第一预处理，确定与所述样本图像对应的文本关键词；根据所述样本图像对应的文本关键词，计算所述样本图像的描述特征信息，并建立所述描述特征信息与所述文本关键词的映射关系；所述处理器控制所述存储器存储所述建立的描述特征信息与所述文本关键词的映射关系。

一种客户端，包括：输入设备、处理器、显示器和通信模块；

所述输入设备用于数据输入；

所述通信模块进行网络数据通信；

所述显示器用于数据显示；

所述处理器通过所述输入设备接收第一图像；所述处理器控制所述通信模块将所述第一图像发送给用于生成文本的设备；通过所述通信设备接收第一文本；其中，所述第一文本根据所述第一图像的第一描述特征信息以及所述图像描述特征信息与文本关键词的映射关系确定；所述处理器控制所述显示器显示所述第一文本。

由以上本申请实施例提供的技术方案可见，本申请实施例公开的生成文本的方法、装置、设备及客户端，通过在图片对应的类目中搜索与图片最相近一定数量的产品，再根据这些产品的标题信息来计算描述特征信息，计算得到的描述特征中可以隐含类目信息。而预先建立的图像描述特征信息与文本关键词的映射关系中的图像描述特征信息中也隐含了类目信息，因此，本申请实施例公开的生成文本的方法、装置、设备及客户端中，计算的图像描述特征信息可以包含类目信息，对于多种类目的产品，只需要建议一个图像描述特征信息与文本关键词的映射关系，本申请实施例公开的生成文本的方法类目扩展性强，可以降低计算机的工作量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请生成文本的方法一个实施例的流程图；

图2是本申请方法实施例中计算按序排列的多个第一文本关键词的示意图；

图3是本申请方法实施例中建立图像描述特征信息与文本关键词的映射关系的流程图；

图4是本申请方法实施例中修正目标关系向量的示意图；

图5是本申请生成文本的装置一个实施例的模块图；

图6是本申请装置实施例中第一文本标题模块的组成示意图；

图7是本申请生成文本的设备一个实施例的示意图；

图8是本申请客户端一个实施例的示意图。

具体实施方式

本申请实施例提供一种生成文本的方法、装置、设备及客户端。

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

图1是本申请生成文本的方法一个实施例的流程图。如图1所示，所述生成文本的方法可以包括：

S101：接收第一图像，计算所述第一图像的图像特征信息，确定所述第一图像对应的第一类目信息。

可以接收需要生成文本的第一图像。所述图像可以是用户利用客户端上传的，例如，所述图像可以是用户利用计算机、平板设备、手机等终端上传的。所述图像可以是预先存储在客户端上的，也可以是用户实时拍摄的。

可以计算所述第一图像的图像特征信息。所述图像特征信息可以是对所述图像进行数据分析得到的特征数据。例如，可以对对所述图像的纹理、颜色等信息进行分析后得到的特征数据。图像特征可以有颜色特征、纹理特征、形状特征、空间关系特征等，通常是对图像的颜色、纹理、形状等进行计算分析得到的数据。在本实施方式中，所述图像特征信息可以包括：图像的CNN(卷积神经网络)特征信息，该图像特征信息可以是通过CNN提取方法对图像进行特征提取得到的数据。

类目信息通常用于对产品根据一定的规则进行划分。例如，可以将服装划分为上衣、裤子、裙子等类目，也可以将服装划分为男装、女装、童装等类目。对于类目的划分，本申请并不作出限定。可以确定所述第一图像对应的第一类目信息。在一个实施方式中，可以预先建立类目信息与图像特征信息之间的对应关系。那么，可以根据预先建立的类目信息与图像特征信息之间的对应关系，以及第一图像的图像特征信息，确定所述第一图像对应的第一类目信息。例如，可以预先建立一个类目预测器，那么可以根据预先建立的类目预测器确定与所述第一图像的图像特征信息对应的第一类目信息。

S102：在所述第一类目中根据所述第一图像的图像特征信息，获取与所述第一图像对应的第一预设个数候选产品的文本信息。

可以根据图像特征的相似度来确定与所述第一图像对应的第一预设个数的候选产品，具体地，可以获取所述第一类目中各产品对应图像的图像特征信息，从所述第一类目的产品中筛选图像特征信息与第一图像的图像特征信息最相似的第一预设个数候选产品。其中所述第一类目中各产品对应图像可以是预设的，例如，可以是电商平台中各产品的主图。可以预先计算各产品对应图像的图像特征信息，所述各产品对应图像的图像特征信息可以与所述第一图像的图像特征信息的提取方法相同，例如，可以是通过CNN提取方法对图像进行特征提取得到的数据。

可以获取所述第一预设个数候选产品的文本信息。所述产品的文本信息可以包括产品的标题信息。

所述第一预设个数一般可以为大于5个。所述第一预设个数一般可以为小于20个。

S103：根据所述第一预设个数候选产品的文本信息，计算所述第一图像对应的第一描述特征信息。

描述特征信息可以用于表示根据产品的文本信息计算得到的特征信息，例如可以是所述文本信息的特征向量。根据与第一图像对应的第一预设个数候选产品的文本信息计算得到的描述特征信息可以称为第一描述特征信息。

所述根据第一预设个数候选产品的文本信息计算第一描述特征信息，具体可以包括：确定与所述第一预设个数候选产品的文本信息对应的文本关键词，计算所述文本关键词的第一特征向量，将所述第一特征向量作为第一描述特征信息。所述文本关键词的第一特征向量可以包括：文本关键词的tf-idf(term frequency–inverse documentfrequency，检索词频率-逆向文件频率)特征向量。所述候选产品的文本信息对应的文本关键词可以是预先设置好的，其可以是根据所述文本信息分析得到的，例如，可以是对所述文本信息进行分词处理等操作后得到的。

所述第一特征描述信息根据第一类目下的所述第一预设个数候选产品的标题信息生成，因此，所述第一特征描述信息中隐含了第一类目信息。

S104：根据所述第一描述特征信息及预先建立的图像描述特征信息与文本关键词的映射关系，确定与所述第一图像的第一描述特征信息对应的第一文本。

具体地，可以先根据所述第一描述特征信息及预先建立的图像描述特征信息与文本关键词的映射关系，确定与第一描述特征信息对应的多个第一文本关键词，再根据所述多个第一文本关键词，生成与所述第一图像对应的第一文本。

所述预先建立的图像描述特征信息与文本关键词的映射关系可以包括：所述图像描述特征信息与预设数据进行第一运算后可以得到按序排列的所述文本关键词。所述预设数据可以是一目标关系向量，其可以表现为矩阵的形式。所述第一运算可以包括：卷积运算。

基于上述描述，所述根据第一描述特征信息及预先建立的图像描述特征信息与文本关键词的映射关系，确定与所述第一图像对应的第一文本可以包括：所述第一描述特征信息与所述预设数据进行第一运算，可以得到与第一图像对应的按序排列的多个第一文本关键词；将所述按序排列的多个第一文本关键词组成与所述第一图像对应的第一文本。

在一个实施方式中，所述第一描述特征信息与所述预设数据进行第一运算，得到与第一图像对应的按序排列的多个第一文本关键词，包括：将第一描述特征信息和得到的第j个第一文本关键词作为输入数据，所述输入数据和所述预设数据进行第一运算，可以得到第j+1个第一文本关键词；所述j为正整数且小于第二预设个数。需要说明的是，为了得到第一个第一文本关键词，可以设置一预设初始关键词；将所述预设初始关键词和第一描述特征信息作为输入数据，将该输入数据和所述预设数据进行第一运算可以得到第一个第一文本关键词。还需要说明的是，当j等于第二预设个数时，可以设定第一运算得到的第j+1个第一文本关键词为预设结束关键词。具体地，可以将初始文本关键词和第一描述特征信息作为输入数据，与所述预设数据进行第一运算，可以得到第一个第一文本关键词；再将该第一个第一文本关键词和第一描述特征信息作为输入数据，与所述预设数据进行第一运算，可以得到第二个第一文本关键词；以此类推，直至将第m个第一文本关键词与第一描述特征作为输入数据并于预设数据进行第一运算时，计算得到的结果为预设的结束关键词，其中，所述m为第二预设个数。

在一个实施方式中，所述关键词特征信息可以是所述关键词的嵌入特征信息(即embedding特征信息)。当然所述关键词特征信息还可以是所述关键词的其他特征信息，本申请对此并不作出限定。

将所述多个按序排列的第一文本关键词，按序连接可以生成与所述第一图像对应的第一文本。

参照图2，在一个具体的示例中，第一图像的第一描述特征信息为tf-idf描述特征信息，其可以用B表示；预设的目标关系向量可以用M表示，第二预设个数可以为m；第一运算可以为卷积运算。假设预设初始关键词为“START”，预设结束关键词为“END”。那么，可以将“B”和预设初始关键词“START”作为输入数据，将该输入数据和所述目标关系向量M进行卷积，假设计算得到的结果是“C1”，可以将“C1”作为第一个第一文本关键词。进一步地，可以将“B”和“C1”作为输入数据，和所述目标关系向量M进行卷积，假设计算得到的结果是“C2”，可以将“C2”作为第二个第一文本关键词。以此类推，直至将“B”和第m个第一关键词“Cm”作为输入数据与目标关系向量M进行卷积时，可以得到预设结束关键词“END”。那么，可以得到按序排列的m个第一文本关键词“C1，C2……Cm”。可以将所述C1，C2……Cm按序连接为自然语句，即为所述第一图像对应的第一文本。

在一个实施方式中，如图3所示，所述建立图像描述特征信息与文本关键词的映射关系的流程可以包括：

S201：获取样本图像，计算所述样本图像的图像特征信息，确定所述样本图像对应的类目信息。

可以获取样本图像并计算所述样本图像的图像特征信息。所述样本图像的图像特征可以为CNN特征信息，其可以采用CNN特征提取方法获得。

进一步地，还可以确定所述样本图像对应的类目信息。所述类目信息可以根据所述样本图像对应的产品来确定。所述样本图像对应的类目可以是所述样本图像对应的产品所属的类目。例如，所述样板图像为一款T恤，该图像对应的产品为“女士T恤”，该产品所属的类目为“女士上衣”，那么该样本图像的类目信息可以为“女士上衣”。

在另一个实施方式中，根据所述样本图像对应的类目信息以及所述样本图像的图像特征信息，可以建立所述类目信息与图像特征信息的对应关系。例如，可以建立一个根据图像特征信息确定类目信息的类目预测器。

S202：在所述样本图像对应的类目中根据所述样本图像的图像特征信息，确定与所述样本图像对应的第三预设个数候选产品。

在所述样本图像对应的类目中根据所述样本图像的图像特征信息，可以确定与所述样本图像对应的第三预设个数候选产品。具体地，可以计算所述样本图像对应的类目中各产品图像的图像特征信息，筛选出图像特征信息与所述样本图像的图像特征信息最相似的第三预设个数的产品图像，所述筛选出的产品图像所对应的产品可以为与所述样本图像对应的第三预设个数候选产品。

所述第三预设个数的取值可以为大于5。所述第三预设个数的取值可以为小于20。所述第三预设个数可以和所述第一预设个数相同。

S203：获取所述第三预设个数候选产品的标题信息，对所述第三预设个数候选产品的标题信息进行第一预处理，确定与所述样本图像对应的文本关键词。

所述对第三预设个数候选产品的标题信息进行第一预处理，得到与所述样本图像对应的文本关键词。具体可以包括：可以对所述第三预设个数的候选产品的标题信息进行分词处理，得到多个分词词语；可以确定每个分词词语的词性；可以根据词性对所述分词词语进行第一筛选操作，例如，筛选出目标词性的分词词语；计算所述第一筛选操作得到的分词词语的分词特征值，例如，可以计算分词词语的tf-idf特征值，根据所述分词特征值可以对所述第一筛选后的分词词语进行第二筛选操作，得到与所述样本图像对应的文本关键词。

在一个实施方式中，所述第一筛选操作可以包括：删除所述词语中词性不是视觉类别的词语。所述视觉类别的词性可以包括：“适用季节”、“适用人群”、“图案”、“领型”等。所述视觉类别的词性的涵盖范围可以根据实际需求预先进行设置。所述第二筛选可以包括：按照所述分词词语的tf-idf特征值从大到小的顺序对所述分词词语进行排序，选取排序得到的前k个分词词语；所述k的取值可以小于或等于第一筛选后分词词语的总个数。

例如，某一样本图像对于的若干个候选产品的标题经分词处理后可以得到下述分词词语：“2016”、“男士”、“涂鸦”、“圆领”、“夏季”和“撞色”。其中分词词语“2016”的词性可以为“上市年份”，分词词语“男士”的词性可以为“适用人群”，分词词语“涂鸦”、“撞色”的词性可以为“图案”，分词词语“圆领”的词性可以为“领型”，分词词语“夏季”的词性可以为“适用季节”。假设视觉类别的词性可以包括：“适用季节”、“适用人群”、“图案”、“领型”，那么，经过第一筛选，可以删除分词词语“2016”。对于所筛选后得到的分词词语“男士”、“涂鸦”、“圆领”、“夏季”和“撞色”，可以分别计算其tf-idf特征值，假设分词词语“男士”的tf-idf特征值为0.3，分词词语“涂鸦”的tf-idf特征值为0.1，分词词语“圆领”的tf-idf特征值为0.15，分词词语“夏季”的tf-idf特征值为0.3，分词词语“撞色”的tf-idf特征值为0.3，第二筛选可以选取所述5个分词词语中tf-idf特征值较大的3个分词词语，即“男士”、“夏季”、“撞色”，并将其作为样本图像对应的文本关键词。

S204：根据所述样本图像对应的文本关键词，计算所述样本图像的描述特征信息，并建立所述描述特征信息与所述文本关键词的映射关系。

具体地，可以计算所述样本图像对应的文本关键词的描述特征信息；可以对所述文本关键词按照预设顺序进行排列；可以设定目标关系向量的初始值；根据所述样本图像的描述特征信息以及所述按照预设顺序排列的文本关键词，可以修正所述目标关系向量；其中，所述图像的描述特征信息与所述修正后的目标关系向量进行第一运算，可以得到所述按照预设顺序排列的文本关键词。所述文本关键词的描述特征信息可以包括：所述文本关键词的tf-idf特征向量。

在一个实施方式中，所述第一运算可以包括：卷积运算。

所述根据样本图像的描述特征信息以及所述按照预设顺序排列的文本关键词，修正所述目标关系向量，具体可以包括：将所述文本关键词中第i个文本关键词和所述样本图像的描述特征信息作为输入数据，将所述文本关键词中第i+1个文本关键词作为输出数据，将所述输入数据与所述目标关系向量进行第一运算得到所述输出数据以对所述目标关系向量进行修正；所述i为大于等于0且小于等于第二预设个数的整数。需要说明的是，可以设定一预设初始关键词，当i为0时，将所述预设初始关键词和所述样本图像的描述特征信息作为输入数据，将第一个文本关键词作为输出数据，修正所述目标关系向量以使所述输入数据与所述修正后的目标关系向量进行第一运算的结果为第一文本关键词。其中，所述预设初始关键词可以为“START”。还需要说明的是，可以设定一预设结束关键词，当i等于第二预设个数时，可以将第i个文本关键词和所述样本图像的描述特征信息作为输入数据，将预设结束关键词作为输出数据，修正所述目标关系向量以使该输入数据与修正后的目标关系向量进行第一运算的结果为预设结束关键词。其中，所述预设结束关键词可以为“END”。

在一个实施方式中，所述修正目标关系向量可以采用LSTM(Long-Short TermMemory，基于序列学习的神经网络)的方式来实现。

参照图4，在一个示例中，样本图像的tf-idf描述特征信息为A，初始目标关系向量可以为M0，所述样本图像对应的按序排列的文本关键词可以分别为W1、W2……Wn，所述n为第二预设个数。可以设定i＝0时，用于作为输入数据的预设初始关键词为“START”。可以设定i等于第二预设个数时，用于作为输出数据的预设结束关键词为“END”。那么，可以将“A”和“START”作为输入数据，“W1”作为输出数据，利用LSTM进行训练，修正所述目标关系向量M0。进一步地，可以将“A”和“W1”作为输入数据，“W2”作为输出数据，利用LSTM进行训练，再次修正目标关系向量M1，修正后的目标关系向量可以为M2。以此类推，直至将“A”和“Wn”作为输入数据，“END”作为输出数据，可以得到修正后的目标关系向量Mn。该修正后的目标关系向量Mn可以用于在线生成与图像对应的文本。

上述实施例公开的生成文本的方法，通过在图片对应的类目中搜索与图片最相近一定数量的产品，再根据这些产品的标题信息来计算描述特征信息，计算得到的描述特征信息中可以隐含类目信息。而预先建立的图像描述特征信息与文本关键词的映射关系中的图像描述特征信息中也隐含了类目信息，因此，本申请实施例公开的生成文本的方法中，计算的图像描述特征信息可以包含类目信息，对于多种类目的产品，只需要建议一个图像描述特征信息与文本关键词的映射关系，本申请实施例公开的生成文本的方法类目扩展性强，可以降低计算机的工作量。

本申请实施例还提供一种生成文本的装置。图5是本申请生成文本的装置一个实施例的模块图。如图5所示，所述生成文本的装置可以包括：

图像特征信息及类目信息确定模块501，可以用于接收第一图像，计算所述第一图像的图像特征信息，确定所述第一图像对应的第一类目信息；

候选产品信息获取模块502，可以用于在所述第一类目中根据所述第一图像的图像特征信息，获取与第一图像对应的第一预设个数候选产品的产品信息；

第一描述特征信息计算模块503，可以用于根据所述第一预设个数候候选产品的产品信息，计算所述第一图像对应的第一描述特征信息；

第一文本确定模块504，可以用于根据所述第一描述特征信息及预先建立的图像描述特征信息与文本关键词的映射关系，确定与所述第一图像对应的第一文本。

图6是本申请装置实施例中第一文本确定模块的组成示意图。如图6所示，所述第一文本确定模块504，可以包括：

映射关系获取子模块5041，可以用于获取预先建立图像描述特征信息与文本关键词的映射关系；

第一文本生成子模块5042，可以用于根据所述映射关系获取子模块5041获取的映射关系，确定与所述第一图像对应的第一文本。

参与图7，本申请实施例还提供一种生成文本的设备，可以为独立服务器，也可以是用于实现一功能的服务器集群。本申请对此并不作出限定。所述设备可以包括：通信模块701、处理器702和存储器703。

所述通信模块701用于进行网络数据通信。所述通信模块701可以依照TCP/IP协议设置，并在该协议框架下进行网络通信。

在一种实施方式中，所述通信模块701具体可以为无线移动网络通信芯片，如GSM、CDMA等；其还可以为Wifi芯片；其还可以为蓝牙芯片。

所述存储器703用于存储数据。所述存储器可以为计算机可读介质中的存储器。

在一种实施方式中，所述存储器703可以包括但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，其可用于存储可以被计算设备访问的信息。

所述处理器702通过所述通信模块701接收第一图像，计算所述第一图像的图像特征信息，确定所述第一图像对应的第一类目信息；在所述第一类目中根据所述第一图像的图像特征信息，获取与第一图像对应的第一预设个数候选产品的文本信息；根据所述第一预设个数候候选产品的文本信息，计算所述第一图像对应的第一描述特征信息；所述处理器702从所述存储器703读取图像描述特征信息与文本关键词的映射关系；根据所述第一描述特征信息及所述图像描述特征信息与文本关键词的映射关系，确定与所述第一图像的第一描述特征信息对应的第一文本。

在一种实施方式中，所述处理器702可以按任何适当的方式实现。例如，所述处理器702可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本申请并不作限定。

本申请实施例还提供一种设备，可以为独立服务器，也可以是用于实现一功能的服务器集群。本申请对此并不作出限定。所述设备可以包括：包括：通信模块、处理器和存储器。

所述通信模块用于进行网络数据通信。所述通信模块可以依照TCP/IP协议设置，并在该协议框架下进行网络通信。所述通信模块具体可以为无线移动网络通信芯片，如GSM、CDMA等；其还可以为Wifi芯片；其还可以为蓝牙芯片。

所述存储器用于存储数据。所述存储器可以为计算机可读介质中的存储器。所述存储器可以包括但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，其可用于存储可以被计算设备访问的信息。

所述处理器通过所述通信模块获取样本图像，计算所述样本图像的图像特征信息，确定所述样本图像对应的类目信息；在所述样本图像对应的类目中根据所述样本图像的图像特征信息，确定与所述样本图像对应的第三预设个数候选产品；所述处理器通过所述通信模块获取所述第三预设个数候选产品的标题信息，对所述第三预设个数候选产品的标题信息进行第一预处理，确定与所述样本图像对应的文本关键词；根据所述样本图像对应的文本关键词，计算所述样本图像的描述特征信息，并建立所述描述特征信息与所述文本关键词的映射关系；所述处理器控制所述存储器存储所述建立的描述特征信息与所述文本关键词的映射关系。所述处理器可以按任何适当的方式实现。例如，所述处理器702可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本申请并不作限定。

本申请还提供一种客户端，所述客户端可以为计算机、平板型设备、手持设备或便携式设备。参阅图8，所述客户端可以包括：输入设备801、处理器802、显示器803和通信模块804。

所述输入设备801用于数据输入.所述输入设备可以是人或外部与计算机进行交互的一种装置。在一种实施方式中，所述输入设备801具体可以为键盘、鼠标、摄像头、扫描仪、光笔、手写输入板等。

所述通信模块804进行网络数据通信。所述通信模块804可以依照TCP/IP协议设置，并在该协议框架下进行网络通信。在一种实施方式中，所述通信模块804具体可以为无线移动网络通信芯片，如GSM、CDMA等；其还可以为Wifi芯片；其还可以为蓝牙芯片。

所述显示器803用于数据显示。所述显示器803是一种将电子文件通过特定的传输设备显示到屏幕上再反射到人眼的显示工具。在一种实施方式中，所述显示器803具体可以为：阴极射线管显示器(CRT)、等离子显示器(PDP)、液晶显示器(LCD)、LED显示器或3D显示器等。

所述处理器通过所述输入设备接收第一图像；所述处理器控制所述通信模块将所述第一图像发送给用于生成文本的设备；通过所述通信设备接收第一文本；其中，所述第一文本根据所述第一图像的第一描述特征信息以及所述图像描述特征信息与文本关键词的映射关系确定；所述处理器控制所述显示器显示所述第一文本。在一种实施方式中，所述处理器802可以按任何适当的方式实现。例如，所述处理器802可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本申请并不作限定。

上述实施例公开的生成文本的装置、设备及客户端，与本申请生成文本的方法实施例相对应，可以实现本申请方法实施例，并取得方法实施例的技术效果。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片2。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。该计算机软件产品可以包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。该计算机软件产品可以存储在内存中，内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括短暂电脑可读媒体(transitory media)，如调制的数据信号和载波。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

虽然通过实施例描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

1.一种生成文本的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述产品的文本信息包括产品的标题信息。

3.根据权利要求2所述的方法，其特征在于，所述根据第一预设个数候选产品的产品信息计算所述第一图像对应的第一描述特征信息，包括：

确定与所述第一预设个数候选产品的文本信息对应的文本关键词，计算所述文本关键词的第一特征向量，将所述第一特征向量作为第一描述特征信息。

4.根据权利要求3所述的方法，其特征在于，所述文本关键词的第一特征向量包括：文本关键词的检索词频率-逆向文件频率特征向量。

5.根据权利要求1所述的方法，其特征在于，所述根据第一描述特征信息及预先建立的图像描述特征信息与文本关键词的映射关系，确定与所述第一图像的第一描述特征信息对应的第一文本，包括：根据所述第一描述特征信息及预先建立的图像描述特征信息与文本关键词的映射关系，确定与第一描述特征信息对应的多个第一文本关键词，根据所述多个第一文本关键词，生成与所述第一图像对应的第一文本。

6.根据权利要求1所述的方法，其特征在于，所述预先建立的图像描述特征信息与文本关键词的映射关系包括：所述图像描述特征信息与预设数据进行第一运算后得到按序排列的所述文本关键词。

7.根据权利要求6所述的方法，其特征在于，所述第一运算包括：卷积运算。

8.根据权利要求6所述的方法，其特征在于，所述预设数据包括：目标关系向量。

9.根据权利要求6所述的方法，其特征在于，所述根据多个第一文本关键词生成与所述第一图像对应的第一文本，包括：将所述按序排列的多个第一文本关键词组成与所述第一图像对应的第一文本。

10.根据权利要求6所述的方法，其特征在于，所述第一描述特征信息与所述预设数据进行第一运算，得到与第一图像对应的按序排列的多个第一文本关键词，包括：

当j为正整数且小于第二预设个数时，将第一描述特征信息和得到的第j个第一文本关键词作为输入数据，所述输入数据和所述预设数据进行第一运算，得到第j+1个第一文本关键词；或者，

设置一预设初始关键词；当j等于0时，将所述预设初始关键词和第一描述特征信息作为输入数据，将该输入数据和所述预设数据进行第一运算得到第一个第一文本关键词；或者，

设置一预设结果关键词，当j等于第二预设个数时，设定得到的第j+1个第一文本关键词为预设结束关键词。

11.根据权利要求6所述的方法，其特征在于，所述图像描述特征信息与文本关键词的映射关系采用下述方法预先建立：

获取样本图像，计算所述样本图像的图像特征信息，确定所述样本图像对应的类目信息；

在所述样本图像对应的类目中根据所述样本图像的图像特征信息，确定与所述样本图像对应的第三预设个数候选产品；

获取所述第三预设个数候选产品的标题信息，对所述第三预设个数候选产品的标题信息进行第一预处理，确定与所述样本图像对应的文本关键词；

根据所述样本图像对应的文本关键词，计算所述样本图像的描述特征信息，并建立所述描述特征信息与所述文本关键词的映射关系。

12.根据权利要求11所述的方法，其特征在于，所述对第三预设个数候选产品的标题信息进行第一预处理包括：

对所述第三预设个数的候选产品的标题信息进行分词处理，得到多个分词词语；

确定每个分词词语的词性；

根据词性对所述分词词语进行第一筛选操作；

计算所述第一筛选操作得到的分词词语的分词特征值，根据所述分词特征值对所述第一筛选后的分词词语进行第二筛选操作，得到与所述样本图像对应的文本关键词。

13.根据权利要求12所述的方法，其特征在于，所述第一筛选操作包括：删除所述词语中词性不是视觉类别的词语。

14.根据权利要求12所述的方法，其特征在于，所述分词词语的分词特征值包括：分词词语的检索词频率-逆向文件频率特征值。

15.根据权利要求14所述的方法，其特征在于，所述根据分词特征值对所述第一筛选后的分词词语进行第二筛选操作，包括：按照所述分词词语的检索词频率-逆向文件频率特征值从大到小的顺序对所述分词词语进行排序，选取排序得到的前k个分词词语；所述k的取值小于或等于第一筛选后分词词语的总个数。

16.根据权利要求11所述的方法，其特征在于，所述根据所述样本图像对应的文本关键词，计算所述样本图像的描述特征信息，并建立所述描述特征信息与所述文本关键词的映射关系，包括：

计算所述样本图像对应的文本关键词的描述特征信息；

对所述文本关键词按照预设顺序进行排列；

设定目标关系向量的初始值；根据所述样本图像的描述特征信息以及所述按照预设顺序排列的文本关键词，修正所述目标关系向量；

其中，所述图像的描述特征信息与所述修正后的目标关系向量进行第一运算，得到所述按照预设顺序排列的文本关键词。

17.根据权利要求16所述的方法，其特征在于，所述根据样本图像的描述特征信息以及所述按照预设顺序排列的文本关键词，修正所述目标关系向量，具体包括：

当i为大于0且小于第二预设个数的整数时，将所述文本关键词中第i个文本关键词和所述样本图像的描述特征信息作为输入数据，将所述文本关键词中第i+1个文本关键词作为输出数据，将所述输入数据与所述目标关系向量进行第一运算得到所述输出数据以对所述目标关系向量进行修正；或者，

设定一预设初始关键词，当i为0时，将所述预设初始关键词和所述样本图像的描述特征信息作为输入数据，将第一个文本关键词作为输出数据，修正所述目标关系向量以使所述输入数据与所述修正后的目标关系向量进行第一运算的结果为第一文本关键词；或者，

设定一预设结束关键词，当i等于第二预设个数时，将第i个文本关键词和所述样本图像的描述特征信息作为输入数据，将预设结束关键词作为输出数据，修正所述目标关系向量以使该输入数据与修正后的目标关系向量进行第一运算的结果为预设结束关键词。

18.根据权利要求11所述的方法，其特征在于，还包括：根据所述样本图像对应的类目信息以及所述样本图像的图像特征信息，建立所述类目信息与图像特征信息的对应关系；其中，所述样本图像对应的类目是所述样本图像对应的产品所属的类目。

19.根据权利要求18所述的方法，其特征在于，所述确定所述第一图像对应的第一类目信息包括：根据所述建立的类目信息与图像特征信息的对应关系，以及第一图像的图像特征信息，确定与所述第一图像对应的第一类目信息。

20.一种生成文本的装置，其特征在于，包括：

21.根据权利要求20所述的装置，其特征在于，所述第一文本标题模块包括：

映射关系获取子模块，用于获取预先建立的图像描述特征信息与文本关键词的映射关系；

第一文本生成子模块，用于根据所述映射关系获取子模块获取的映射关系，确定与所述第一图像对应的第一文本。

22.一种生成文本的设备，其特征在于，包括：通信模块、处理器和存储器；

所述通信模块用于进行网络数据通信；

所述存储器用于存储数据；

23.一种设备，其特征在于，包括：通信模块、处理器和存储器；

所述通信模块用于进行网络数据通信；

所述存储器用于存储数据；

24.一种客户端，其特征在于，包括：输入设备、处理器、显示器和通信模块；

所述输入设备用于数据输入；

所述通信模块进行网络数据通信；

所述显示器用于数据显示；