CN118038457A

CN118038457A - 一种图像文本的生成方法、计算设备及存储介质

Info

Publication number: CN118038457A
Application number: CN202410058522.0A
Authority: CN
Inventors: 刘华
Original assignee: Beijing Chezhiying Technology Co ltd
Current assignee: Beijing Chezhiying Technology Co ltd
Priority date: 2024-01-15
Filing date: 2024-01-15
Publication date: 2024-05-14

Abstract

本发明公开了一种图像文本的生成方法、计算设备及存储介质，图像文本的生成方法在计算设备中执行，该方法包括：从待处理图像中检测出至少一个目标对象及各目标对象对应的区域信息；将待处理图像及各区域信息分别输入特征提取模型，经处理后对应输出各目标对象的特征向量；利用第一全连接网络对特征向量处理，得到初始状态向量；利用分词向量预测模型对初始词、初始状态向量进行处理，以预测各时刻对应的分词序号向量；根据各分词序号向量对应在预设词典中的词汇，得到待处理图像的文本。该方法通过定位目标对象的目标区域排除非目标物体的干扰，并通过建立目标对象与其语义的时序关系，强化二者的相关性，使得输出的文本描述准确、自然。

Description

一种图像文本的生成方法、计算设备及存储介质

技术领域

本发明涉及图像处理技术领域，具体涉及一种图像文本的生成方法、计算设备及存储介质。

背景技术

随着互联网带宽的提升，以及带有拍照功能的移动终端的普及，每天都有海量的图像数据产生。

为了从这些图像数据中检索到用户需要的图像，现有技术中提出了一种利用自然语言对图像的内容进行有意义的描述(即图像文本自动生成)，进而根据产生的文本对相关图像进行检索，利用文本信息的维度低于视觉信息的特点，降低计算复杂度，提高检索效率。

然而，由于图像数据维度高，且往往内容丰富多变，使得该方法计算复杂度高，需要占用大量的计算资源(如CPU、GPU以及内存等)。此外，该方法还容易受到应用场景的制约，譬如，在描述抽象场景时，通常很难找到合适的参考图像，因而无法进行有效地检索。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种图像文本的生成方法、计算设备以及存储介质。

根据本发明的一个方面，提供一种图像文本的生成方法，在计算设备中执行，该方法包括：从待处理图像中检测出至少一个目标对象及各目标对象对应的区域信息；将待处理图像及各区域信息分别输入特征提取模型，经处理后对应输出各目标对象的特征向量；利用第一全连接网络对特征向量处理，得到初始状态向量；利用分词向量预测模型对初始词、初始状态向量进行处理，以预测各时刻对应的分词序号向量；根据各分词序号向量对应在预设词典中的词汇，得到待处理图像的文本。

可选地，在根据本发明的图像文本的生成方法中，分词向量预测模型基于长短期记忆网络，适于基于t-1时刻的分词序号向量，预测t时刻的分词序号向量。

可选地，在根据本发明的图像文本的生成方法中，分词向量预测模型至少包括卷积组件、全连接组件和分类组件，其中卷积组件中包含注意力模块，以及利用分词向量预测模型对初始词、初始状态向量进行处理，以预测各时刻对应的分词序号向量，包括：基于卷积组件和注意力模块，对初始词和初始状态向量进行处理，得到各时刻对应的隐状态向量；基于全连接组件和分类组件，对各隐状态向量进行处理，输出概率值，并依据概率值确定各时刻的分词序号向量。

可选地，在根据本发明的图像文本的生成方法中，方法还包括训练分词向量预测模型：获取第一训练图集及第一训练图集中各图像的描述文本；对各描述文本进行分词处理，得到多个分词；通过统计各分词的出现频率，生成预设词典；根据各描述文本所包含的分词，对应在词典中的序号，生成各描述文本对应的分词序号向量；利用各分词序号向量对初始的分词向量预测模型进行训练，得到分词向量预测模型。

可选地，在根据本发明的图像文本的生成方法中，通过统计各分词的出现频率，生成词典，包括：统计各分词的出现次数；将出现次数小于预设次数的分词均替换为替换词；增加初始词和结束词；基于未替换的分词、替换词、初始词和结束词的出现频率进行排序，得到排序序号；根据各排序序号和对应的分词，生成词典。

可选地，在根据本发明的图像文本的生成方法中，隐状态向量通过如下方式获得：h_t＝f(h_t-1,y_t-1,z_t)其中，f()表示卷积组件，h_t表示t时刻的隐状态向量，z_t表示在t时刻的上下文向量，y_t-1表示t-1时刻的分词序号向量。

可选地，在根据本发明的图像文本的生成方法中，初始状态向量通过如下方式获取：其中，f₀表示第一全连接网络，a_i表示各特征向量，L为特征向量的数量。

可选地，在根据本发明的图像文本的生成方法中，依据输出概率确定该隐状态向量对应时刻的输出分词序号向量，包括：从概率值中获取概率最大值，并基于概率最大值确定当前时刻的分词序号向量。

可选地，在根据本发明的图像文本的生成方法中，根据各分词序号向量对应在预设词典中的词汇，得到待处理图像的文本，包括：针对每一分词序号向量，从预设词典中匹配出对应的描述分词；基于各描述分词，得到待处理图像的文本。

可选地，在根据本发明的图像文本的生成方法中，从待处理图像中检测出至少一个目标对象及各目标对象对应的区域信息，包括：利用目标检测模型从待处理图像中检测出至少一个目标对象，并输出目标对象的目标区域。

可选地，在根据本发明的图像文本的生成方法中，还包括训练目标检测模型的步骤：获取第二训练图集；对第二训练图集中的目标对象进行标注，得到标注数据，标注诗句包括各目标对象对应的区域信息；利用第二训练图集及其标注数据对初始的目标检测模型进行训练，得到目标检测模型。

可选地，在根据本发明的图像文本的生成方法中，特征提取模型基于ResNet101神经网络生成，特征提取模型至少包括一个卷积层、一个池化层和三个残差网络。

根据本发明的又一个方面，提供一种计算设备，包括：至少一个处理器；和存储有程序指令的存储器，其中，所述程序指令被配置为适于由所述至少一个处理器执行，所述程序指令包括用于执行上述方法的指令。

根据本发明的又一个方面，提供一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行上述的方法。

根据本发明的方案，通过定位目标对象的目标区域，排除非目标物体的干扰，并通过建立目标对象与其语义的时序关系，强化二者的相关性，使得输出的文本描述准确、自然。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了的计算设备100的物理组件(即，硬件)框图；

图2示出了根据本发明一个实施例的图像文本的生成方法200的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

对人来说，用语言描述图片中的内容非常简单，但对于计算机来说仍具有相当的难度。这是因为图像和文本属于截然不同的两种模态(即特征空间)，因而最大的挑战源于如何使机器能够理解前者的内容，并快速、准确地转化为后者并使其合乎人类语言习惯。

现有技术中，一般采用提取图像和对应文本的特征向量，并对二者进行融合的方案(以下称为融合方案)，或者是采用模型输出方案。

对于融合方案，其基于卷积神经网络分别提取图像和对应文本的特征向量，并对二者进行融合，而后依据融合向量利用预先构建的摘要生成模型和视觉注意力模型生成图片内容的文字描述。若有多张图片，该方案还可以对每张图片的重要性打分并排序，从对应的描述中择优而选。

不过融合方案需要构建多个不同模态的预训练模型，难以根据实际需要灵活地调整和迭代。若需重新构建模型，则需要耗费大量的人力资源采集、标注新的样本，以及相当的计算资源重新训练模型。

而对于模型输出方案，一般利用卷积神经网络提取图像的特征，并同时对相应的文本进行分词并编码成词向量，而后将两种特征同时输入循环神经网络建立二者的时序对应关系，从而完成模型的构建，当给定一幅图像后，将该图像和一个初始词向量送入该模型，即可产生对图片内容的文字描述。

模型输出方案的缺点在于图像特征的表征范围过于宽泛，因而很难建立其与词向量之间准确的语义对应关系。

为解决上述现有技术中存在的问题，提出本发明的方案。本发明的一个实施例提供了一种图像文本的生成方法，该方法通过定位待处理图像中的目标对象的目标区域，排除非目标物体的干扰，并通过建立目标对象与其语义的时序关系，强化二者的相关性，使得输出的文本描述准确、自然。

该方法可以在计算设备100中执行。计算设备100可以实现为服务器，例如应用服务器、Web服务器等；也可以实现为桌面电脑、笔记本电脑、处理器芯片、平板电脑等，但不限于此。图1示出了的计算设备100的物理组件(即，硬件)框图。在基本配置中，计算设备100包括至少一个处理单元102和系统存储器104。根据一个方面，取决于计算设备的配置和类型，系统存储器104包括但不限于易失性存储(例如，随机存取存储器)、非易失性存储(例如，只读存储器)、闪速存储器、或者这样的存储器的任何组合。

根据一个方面，系统存储器104包括操作系统105。系统存储器104还包括程序模块150。根据一个方面，操作系统105，例如，适合于控制计算设备100的操作。此外，示例结合图形库、其他操作系统、或任何其他应用程序而被实践，并且不限于任何特定的应用或系统。在图1中通过在虚线108内的那些组件示出了该基本配置。根据一个方面，计算设备100具有额外的特征或功能。例如，根据一个方面，计算设备100包括额外的数据存储设备(可移动的和/或不可移动的)，例如磁盘、光盘、或者磁带。这样额外的存储在图1中是由可移动存储设备109和不可移动存储设备110示出的。

如在上文中所陈述的，根据一个方面，在系统存储器104中存储有程序模块。根据一个方面，程序模块可以包括一个或多个应用程序，本发明不限制应用程序的类型，例如应用程序可以包括：电子邮件和联系人应用程序、文字处理应用程序、电子表格应用程序、数据库应用程序、幻灯片展示应用程序、绘画或计算机辅助应用程序、网络浏览器应用程序等。

根据一个方面，可以在包括分立电子元件的电路、包含逻辑门的封装或集成的电子芯片、利用微处理器的电路、或者在包含电子元件或微处理器的单个芯片上实践示例。例如，可以经由其中在图1中所示出的每个或许多组件可以集成在单个集成电路上的片上系统(SOC)来实践示例。根据一个方面，这样的SOC设备可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元、以及各种应用功能，其全部作为单个集成电路而被集成(或“烧”)到芯片基底上。当经由SOC进行操作时，可以经由在单个集成电路(芯片)上与计算设备100的其他组件集成的专用逻辑来对在本文中所描述的功能进行操作。还可以使用能够执行逻辑操作(例如AND、OR和NOT)的其他技术来实践本发明的实施例，所述其他技术包括但不限于机械、光学、流体、和量子技术。另外，可以在通用计算机内或在任何其他任何电路或系统中实践本发明的实施例。

根据一个方面，计算设备100还可以具有一个或多个输入设备112，例如键盘、鼠标、笔、语音输入设备、触摸输入设备等。还可以包括输出设备114，例如显示器、扬声器、打印机等。前述设备是示例并且也可以使用其他设备。计算设备100可以包括允许与其他计算设备118进行通信的一个或多个通信连接116，其他计算设备118可以为打印设备，打印设备例如打印机。合适的通信连接116的示例包括但不限于：RF发射机、接收机和/或收发机电路；通用串行总线(USB)、并行和/或串行端口。

如在本文中所使用的术语计算机可读介质包括计算机存储介质。计算机存储介质可以包括以任何用于存储信息(例如，计算机可读指示、数据结构、或程序模块)的方法或技术来实现的易失性的和非易失性的、可移动的和不可移动的介质。系统存储器104、可移动存储设备109、和不可移动存储设备110都是计算机存储介质的示例(即，存储器存储)。计算机存储介质可以包括随机存取存储器(RAM)、只读存储器(ROM)、电可擦只读存储器(EEPROM)、闪速存储器或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光存储、盒式磁带、磁带、磁盘存储器或其他磁存储设备、或者可用于存储信息并且可以由计算机设备100访问的任何其他制品。根据一个方面，任何这样的计算机存储介质都可以是计算设备100的一部分。计算机存储介质不包括载波或其他经传播的数据信号。

根据一个方面，通信介质是由计算机可读指令、数据结构、程序模块、或者经调制的数据信号(例如，载波或其他传输机制)中的其他数据实施的，并且包括任何信息传递介质。根据一个方面，术语“经调制的数据信号”描述了具有一个或多个特征集或者以将信息编码在信号中的方式改变的信号。作为示例而非限制，通信介质包括诸如有线网络或直接有线连接之类的有线介质，以及诸如声学、射频(RF)、红外线的、以及其他无线介质之类的无线介质。

在根据本发明的实施例中，计算设备100被配置为执行根据本发明的图像文本的生成方法200。计算设备100包括一个或多个处理器、以及存储有程序指令的一个或多个可读存储介质，当程序指令被配置为由一个或多个处理器执行时，使得计算设备执行本发明实施例中的图像文本的生成方法200。

图2示出了根据本发明一个实施例的图像文本的生成方法200的流程图。方法200适于在计算设备(例如前述计算设备100)中执行。

如图2所示，方法200的目的是建立目标对象与其语义的时序关系，强化二者的相关性，使得输出的文本描述准确、自然的方法。

方法200始于步骤202，在步骤202中，从待处理图像中检测出至少一个目标对象及各目标对象对应的区域信息。

在一些实施例中，可利用目标检测模型从待处理图像中检测出至少一个目标对象，并输出目标对象的目标区域。目标检测是计算机视觉领域中的重要任务之一，其目标是在给定一张图像中准确地识别和定位出图像中的目标物体。目标检测模型通常被应用于许多实际应用场景中，如自动驾驶、视频监控、智能安防等。

目标检测模型可以分为两个主要模块：目标定位和目标分类。

目标定位的任务是确定图像中目标物体的位置，通常使用边界框(bounding box)表示目标区域，并给出矩形的坐标信息(区域信息)；目标分类的任务是识别目标物体的类别，通常使用分类器M_obj(如Faster R-CNN等)对矩形框中的图像进行分类。

在一些实施例中，方法200还包括以下对上述目标检测模型的训练步骤：

首先，获取目标检测训练图集(即第二训练图集)。

然后，对目标检测训练图集中各图像中的目标对象进行标注，得到标注数据，标注数据包括各目标对象对应的区域信息。

最后，利用第二训练图集及其标注数据，对初始的目标检测模型进行训练，得到目标检测模型。

在一个具体示例中，模型训练人员先收集若干图像I＝(I₁,I₂,…,I_M)，并对目标检测训练图集的各图像中的目标对象(模型训练人员可将图像中的感兴趣区域作为目标对象，例如图像中的人物、动物等)的位置、大小及类别进行人工标注。

利用标注后的图像集I对目标检测器M_obj进行训练，得到本实施例的目标检测模型。本发明并不限制具体选用哪种目标检测网络作为目标检测器，任何已知或未来可知的目标检测算法，均可与本发明实施例相结合，实现本发明的方法200。

经过训练的目标检测模型可从任一待处理图像中检测出至少一个目标对象和目标对象的目标区域，并输出目标区域的区域信息。

在检测出目标对象及区域信息后，进入步骤204，将待处理图像及各区域信息分别输入特征提取模型，经处理后对应输出各目标对象的特征向量。

应当了解，在将待处理图像输入特征提取网络之前，还会对待处理图像进行预处理，包括将待处理图像缩放到适合特征提取模型处理的图像尺寸。在一些实施例中，将待处理图像缩放至224×224的大小。

在一些实施例中，特征提取模型基于ResNet101神经网络生成，特征提取模型至少包括依次耦接的一个卷积层、一个池化层、三个残差网络、一个下采样层、一个残差网络和一个全局池化层。

将待处理图像及图像中一个目标对象的区域信息输入特征提取网络，经卷积层和池化层处理后，依次输入3个残差网络(3个残差网络分别含有3、4和23个残差模块)，每个残差网络的输出维度分别为256，512，1024。

之后，通过下采样层对该向量进行处理，得到一个7×7×1024的向量，将其依次输入残差网络(包含3个残差模块)、全局池化层进行处理，最终输出一个2048维的向量，作为该目标对象的特征向量，记为a。

对所有目标对象的区域信息重复上述步骤，得到全部目标对象的特征向量，记作A＝{a₁,a₂,…,a_L}，其中L为待处理图像中目标对象的数量。

在一些实施例中，方法200还包括对特征提取模型的训练步骤：

首先，获取特征提取训练图集(也可直接利用上述目标检测训练图集)。

然后，利用上述目标检测模型定位特提取征训练图集中各图像中的目标对象和区域信息。即利用检测器M_obj定位图像集合I中目标对象的位置和大小，记为B＝(B₁,B₂,…,B_M)，其中B_i代表一幅图像的所有框集合(即目标区域)。

最后，基于特提取征训练图集、各图像的目标对象和区域信息对初始的特征提取模型进行训练，得到特征提取模型。即，将特提取征训练图集和目标对象B输入至初始特征提取模型进行训练。

在一些实施例中，在将特征提取征训练图集输入至初始特征提取模型训练之前，还可对目标检测训练图集中的各图像进行预处理。

预处理过程包括先对图像随机对比度变化、随机亮度变化等数据增强，并将增强后的图像缩放至224×224的大小，再进行归一化处理。

在步骤206中，利用第一全连接网络对特征向量处理，得到初始状态向量。

在一些实施例中，初始状态向量通过如下方式获取：

其中，f₀表示第一全连接网络，a_i表示各特征向量，L为特征向量的数量。

之后，在步骤208中，利用分词向量预测模型对初始词、初始状态向量进行处理，以预测各时刻对应的分词序号向量。分词向量预测模型基于长短期记忆网络(Long Short-term Memory，简记为LSTM)，适于基于t-1时刻的分词序号向量，预测t时刻的分词序号向量

应当注意的是，初始词应当与预设词典中的初始词保持一致，其中，预设词典中各分词的序号指示分词的出现频率，因此，得到分词的序号向量，即可在词典中查找到对应的分词，从而得到待处理图像的文本。对于预设词典的介绍和说明可参考下文的描述，在此不再赘述。

需要说明的是，LSTM的计算过程可以概括为，通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递，而无用的信息被丢弃，并在每个时间步都会输出隐层状态(隐状态向量)，其中遗忘，记忆与输出由通过上个时刻的隐层状态和当前输入(初始词)计算出来的遗忘门，记忆门，输出门来控制。

在一些实施例中，分词向量预测模型至少包括卷积组件、全连接组件和分类组件，其中，所述卷积组件中包含注意力模块。

其中，可基于卷积组件和注意力模块，对初始词和初始状态向量进行处理，得到各时刻对应的隐状态向量。

基于全连接组件和分类组件，对各隐状态向量进行处理，输出概率值，并依据概率值确定各时刻的分词序号向量。

隐状态向量通过如下方式获得：

h_t＝f(h_t-1,y_t-1,z_t)

其中，所述f()表示卷积组件，h_t表示t时刻的隐状态向量，z_t表示在t时刻的上下文向量(由注意力模块获取)，y_t-1表示t-1时刻的分词序号向量。初始的y_t-1即上述初始词。

f()可具体表示如下：

其中，i_t，f_t，c_t和o_t分别为初始分词向量预测模型的输入向量、遗忘向量、记忆向量和输出向量，T为仿射矩阵，σ为sigmoid函数，⊙为向量点积运算。

z_t通过如下方式表示：

α_t＝softmax(f_att(A,h_t-1))

f_att＝tanh(W_hh_t-1+W_AA)

其中，W_h和W_A为全连接组件(包括两个全连接层)的系数矩阵，f_att()为注意力模块的机制函数，A为图像的特征向量集，a_i为A中的各特征向量。

将分词向量预测模型在t时刻的隠状态h_t输入一个全连接组件，再将从全连接组件的输出作为分类组件(softmax函数)的输入，从而得到上述概率值，并依据概率值确定各时刻的分词序号向量。优选地，从概率值中获取概率最大值，并基于概率最大值确定当前时刻的分词序号向量。具体地，将该概率最大值与各分词序号向量对应的分词在词典中的出现频率进行比较，将最接近的频率所指示的分词序号向量作为该时刻的分词序号向量。

在一些实施例中，方法200还包括括训练分词向量预测模型：

首先，获取长短期训练图集(即第一训练图集)及长短期训练图集中各图像的描述文本。值得注意的是，本实施例的长短期训练图集(第一训练图集)与上文的目标检测训练图集(第二训练图集)可为同一训练图集。描述文本可由模型训练用户进行人工描述获得。

然后，对各描述文本进行分词处理，得到多个分词。

之后，通过统计各分词的出现频率，生成预设词典。

其中，词典的生成过程包括以下步骤：

1、统计各分词的出现次数。例如，“小狗”出现10次，“小猫”出现1次，“红色”出现50次等。

2、将出现次数小于预设次数的分词均替换为替换词。预设次数可根据分词的总量来确定，例如，预设次数为5次，本实施例对预设次数的具体数值不作限定。

另外，本实施例的替换词、下述步骤3中的初始词和结束词不可与分词相同，其可由模型训练用户自行设置，例如，替换词可设置为“<UNK>”、初始词可设置为“<START>”、结束词设置为“<EOS>”。

继续上述示例，由于“小猫”只出现了1次，小于5次，则将“小猫”这一分词替换为“<UNK>”。

3、增加预设的初始词和结束词。

4、基于未替换的分词、替换词、初始词和结束词的出现频率进行排序，得到排序序号。

5、根据各排序序号和对应的分词，生成词典。其中，各分词的排序序号作为该分词在词典中的搜索索引。

再然后，根据各描述文本所包含的分词，对应在词典中的序号，生成各描述文本对应的分词序号向量。将词典中每一个描述文本映射为一个序号向量Y＝{y₁,y₂,…,y_N}，用来表示对应的文本描述，其中N为该描述文本的分词数量。

最后，利用各分词序号向量对初始的分词向量预测模型进行训练，得到分词向量预测模型。具体地，给定t-1时刻的分词序号向量y_t-1(t＝{1,2,…,N})，利用初始长短神经网络对当前t时刻的分词序号向量y_t进行估计。

长短神经网络的输出结果为概率值(以下称输出概率值)，通过与各分词在词典中出现的概率值(以下称真实概率值)进行比较，并计算输出概率值和真实概率值之间的最小交叉熵。

基于相同的方式，计算出所有时刻对应的输出概率值与真实概率值的最小交叉熵，并采用随机梯度下降法训练模型直至收敛，得到最终的分词向量预测模型。

需要说明的是，步骤208是重复执行的，即利用初始词、初始状态向量的得到一个初始状态+1时刻下的分词序号向量和该状态下的状态向量，再将该状态分词序号向量和状态向量继续输入至分词向量预测模型来得到下一时刻的分词序号向量和状态向量，直到结束词出现为止，得到待处理图像的对应的所有分词序号向量。

在得到所有分词序号向量后，进入步骤210，根据各分词序号向量对应在预设词典中的词汇，得到待处理图像的文本。具体地，针对每一分词序号向量，从预设词典中查找出其对应的分词，得到待处理图像对应的所有分词，将各分词进行排序组合，得到该待处理图像的文本。

本发明提供的方法通过定位目标对象的目标区域，排除非目标物体的干扰，并通过建立目标对象与其语义的时序关系，强化二者的相关性，使得输出的文本描述准确、自然。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的方法。

A9、如A8所述的方法，其中，根据各分词序号向量对应在预设词典中的词汇，得到所述待处理图像的文本，包括：针对每一分词序号向量，从所述预设词典中匹配出对应的描述分词；基于各描述分词，得到所述待处理图像的文本。A10、如A1所述的方法，其中，从待处理图像中检测出至少一个目标对象及各目标对象对应的区域信息，包括：利用目标检测模型从所述待处理图像中检测出至少一个目标对象，并输出所述目标对象的目标区域。A11、如A10所述的方法，其中，还包括训练所述目标检测模型的步骤：获取第二训练图集；对所述第二训练图集中各图像的目标对象进行标注，得到标注数据，所述标注数据包括各目标对象对应的区域信息；利用第二训练图集及其标准数据对初始的目标检测模型进行训练，得到所述目标检测模型。A12、如A1所述的方法，所述特征提取模型基于ResNet101神经网络生成，所述特征提取模型至少包括一个卷积层、一个池化层和三个残差网络。

以示例而非限制的方式，可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的较佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种图像文本的生成方法，在计算设备中执行，该方法包括：

从待处理图像中检测出至少一个目标对象及各目标对象对应的区域信息；

将所述待处理图像及各区域信息分别输入特征提取模型，经处理后对应输出各目标对象的特征向量；

利用第一全连接网络对所述特征向量处理，得到初始状态向量；

利用分词向量预测模型对初始词、初始状态向量进行处理，以预测各时刻对应的分词序号向量；

根据各分词序号向量对应在预设词典中的词汇，得到所述待处理图像的文本。

2.如权利要求1所述的方法，其中，所述分词向量预测模型基于长短期记忆网络，适于基于t-1时刻的分词序号向量，预测t时刻的分词序号向量。

3.如权利要求2所述的方法，其中，所述分词向量预测模型至少包括卷积组件、全连接组件和分类组件，其中，所述卷积组件中包含注意力模块，以及利用分词向量预测模型对初始词、初始状态向量进行处理，以预测各时刻对应的分词序号向量，包括：

基于卷积组件和注意力模块，对所述初始词和初始状态向量进行处理，得到各时刻对应的隐状态向量；

基于全连接组件和分类组件，对各隐状态向量进行处理，输出概率值，并依据所述概率值确定各时刻的分词序号向量。

4.如权利要求1所述的方法，其中，所述方法还包括训练所述分词向量预测模型：

获取第一训练图集及第一训练图集中各图像的描述文本；

对各描述文本进行分词处理，得到多个分词；

通过统计各分词的出现频率，生成预设词典；

根据各描述文本所包含的分词，对应在词典中的序号，生成各描述文本对应的分词序号向量；

利用各分词序号向量对初始的分词向量预测模型进行训练，得到所述分词向量预测模型。

5.如权利要求4所述的方法，其中，通过统计各分词的出现频率，生成词典，包括：

统计各分词的出现次数；

将出现次数小于预设次数的分词均替换为替换词；

增加初始词和结束词；

基于未替换的分词、替换词、初始词和结束词的出现频率进行排序，得到排序序号；

根据各排序序号和对应的分词，生成所述词典。

6.如权利要求2所述的方法，其中，隐状态向量通过如下方式获得：

h_t＝f(h_t-1,y_t-1,z_t)

其中，f()表示所述卷积组件，h_t表示t时刻的隐状态向量，z_t表示在t时刻的上下文向量，y_t-1表示t-1时刻的分词序号向量。

7.如权利要求1所述的方法，其中，所述初始状态向量通过如下方式获取：

8.如权利要求1所述的方法，其中，依据所述输出概率确定该隐状态向量对应时刻的输出分词序号向量，包括：

从所述概率值中获取概率最大值，并基于所述概率最大值确定当前时刻的分词序号向量。

9.一种计算设备，包括：

至少一个处理器；和

存储有程序指令的存储器，其中，所述程序指令被配置为适于由所述至少一个处理器执行，所述程序指令包括用于执行如权利要求1-8中任一项所述方法的指令。

10.一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行如权利要求1-8中任一项所述的方法。