CN114299517A

CN114299517A - 图像处理方法、装置、设备、存储介质及计算机程序产品

Info

Publication number: CN114299517A
Application number: CN202111496788.6A
Authority: CN
Inventors: 周愿恩; 张勇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-04-08

Abstract

本申请实施例涉及人工智能领域，公开一种图像处理方法、装置、设备、存储介质及计算机程序产品，该方法包括：对待处理图像进行视觉特征提取处理，得到待处理图像的视觉特征向量；对待处理图像的视觉特征向量进行字符预测处理，得到N个描述字符序列；其中，N个描述字符序列中每个描述字符序列包括M个描述字符，N个描述字符序列中第一个描述字符序列是根据待处理图像的视觉特征向量得到的，N个描述字符序列中第t+1个描述字符序列是根据前t个描述字符序列得到的，M、N为大于1的整数，t为小于或等于N的正整数；根据N个描述字符序列生成待处理图像的预测描述字符序列，可提高用于描述图像的图像内容的预测描述字符序列的生成速率。

Description

图像处理方法、装置、设备、存储介质及计算机程序产品

技术领域

本申请涉及人工智能领域，尤其涉及一种图像处理方法、装置、设备、存储介质及计算机程序产品。

背景技术

图像描述(Image Caption)是指用自然语言描述图像的图像内容的技术，即根据图像生成用于描述该图像的图像内容的描述性文本(预测描述字符序列)的技术。其中，根据图像生成的描述性文本的准确性以及该描述性文本的生成速率是图像描述领域的重点关注内容，而现有用于实现图像描述的技术在生成图像的描述性文本时生成速率较低。

发明内容

本申请实施例提供一种图像处理方法、装置、设备、存储介质及计算机程序产品，可提高用于描述图像的图像内容的预测描述字符序列的生成速率。

一方面，本申请实施例提供了一种图像处理方法，包括：

对待处理图像进行视觉特征提取处理，得到所述待处理图像的视觉特征向量；

对所述待处理图像的视觉特征向量进行字符预测处理，得到N个描述字符序列；其中，所述N个描述字符序列中每个描述字符序列包括M个描述字符，所述N个描述字符序列中第一个描述字符序列是根据所述待处理图像的视觉特征向量得到的，所述N个描述字符序列中第t+1个描述字符序列是根据前t个描述字符序列得到的，M、N为大于1的整数，t为小于或等于N的正整数；

根据所述N个描述字符序列生成所述待处理图像的预测描述字符序列。

一方面，本申请实施例提供了一种图像处理装置，其特征在于，所述图像处理装置包括获取单元以及处理单元，所述获取单元以及所述处理单元用于执行上述图像处理方法。

一方面，本申请实施例提供了一种图像处理设备，其特征在于，所述图像处理设备包括输入接口和输出接口，还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行上述图像处理方法。

一方面，本申请实施例提供了一种计算机存储介质，其特征在于，所述计算机存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行上述图像处理方法。

一方面，本申请实施例提供了一种计算机程序产品或计算机程序，计算机程序产品包括计算机程序，该计算机程序存储在计算机存储介质中；图像处理设备的处理器从计算机存储介质中读取该计算机程序，处理器执行该计算机程序，使得图像处理设备执行上述图像处理方法。

本申请实施例中，图像处理设备可以对待处理图像进行视觉特征提取处理，得到待处理图像的视觉特征向量；然后对待处理图像的视觉特征向量进行字符预测处理，得到N个描述字符序列；根据N个描述字符序列生成待处理图像的预测描述字符序列；其中，N个描述字符序列中每个描述字符序列包括M个描述字符，N个描述字符序列中第一个描述字符序列是根据待处理图像的视觉特征向量得到的，N个描述字符序列中第t+1个描述字符序列是根据前t个描述字符序列得到的，M、N为大于1的整数，t为小于或等于N的正整数。也就是说，可以对待处理图像的视觉特征向量进行多次处理，得到多个描述字符序列；然后根据得到的多个描述字符序列生成用于描述待处理图像的图像内容的预测描述字符序列，其中，对待处理图像的视觉特征向量的每次处理得到一个包括了多个描述字符的描述字符序列，可以减少对待处理图像的视觉特征向量的处理次数，可提高用于描述图像的图像内容的预测描述字符序列的生成速率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像处理方法的流程示意图；

图2是本申请实施例提供的一种待处理图像的特征区域的示意图；

图3是本申请实施例提供的一种生成待处理图像的预测描述字符序列示意图；

图4是本申请实施例提供的一种图像处理模型的示意图；

图5是本申请实施例提供的另一种图像处理方法的流程示意图；

图6是本申请实施例提供的一种根据待处理图像生成第一个描述字符序列的示意图；

图7是本申请实施例提供的一种初始图像处理模型的训练方法的流程示意图；

图8是本申请实施例提供的一种基于初始图像处理模型对训练样本图像的标签描述字符序列进行处理的示意图；

图9是本申请实施例提供的一种通过放宽限制的因果掩盖的多头自注意力层进行顺序遮掩的示意图；

图10是本申请实施例提供的一种图像处理装置的结构示意图；

图11是本申请实施例提供的一种图像处理设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例主要涉及人工智能领域中的计算机视觉(Computer Vision,CV)领域，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。图像描述是计算机视觉中的重要研究领域，图像描述是指根据图像生成用于描述该图像的图像内容的描述性文本(预测描述字符序列)的技术，为了提高用于描述图像的图像内容的预测描述字符序列的生成速率，本申请实施例提供了一种图像处理方案，可以对待处理图像进行视觉特征提取处理，得到待处理图像的视觉特征向量；然后可以对待处理图像的视觉特征向量进行多次处理，得到多个描述字符序列；然后根据得到的多个描述字符序列生成用于描述待处理图像的图像内容的预测描述字符序列，其中，对待处理图像的视觉特征向量的每次处理得到一个包括了多个描述字符的描述字符序列，可以减少对待处理图像的视觉特征向量的处理次数，进而可提高用于描述图像的图像内容的预测描述字符序列的生成速率。

在具体实现中，本申请实施例提供的图像处理方案可以由图像处理设备执行，该图像处理设备可以为终端设备或者服务器；此处的终端设备可包括但不限于：计算机、智能手机、平板电脑、笔记本电脑、车载终端等；此处的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请实施例提供的图像处理方案具有广大的应用前景，例如，可以用于为图片快速添加文本描述，也可以用于帮助视障人士实时感知外部世界，即可以通过本申请实施例提供的图像处理方案将图像转换为用于描述该图像的图像内容的描述性文本，然后可以结合语音合成技术，实现从描述性文本到语音的转换，进而可以帮助视障人士感知图像的图像内容。

基于上述图像处理方案，本申请实施例提供了一种图像处理方法。参见图1，为本申请实施例提供的一种图像处理方法的流程示意图。图1所示的图像处理方法可由图像处理设备执行。图1所示的图像处理方法可包括如下步骤：

S101，对待处理图像进行视觉特征提取处理，得到待处理图像的视觉特征向量。

在一个实施例中，待处理图像可以是包含有任意图像内容的图像；待处理图像的视觉特征向量是通过对待处理图像进行视觉特征提取处理得到的，用于描述待处理图像的图像内容所具有的特征的向量；待处理图像的视觉特征向量可以指示：待处理图像中特征区域内所包括物体的区域物体特征，以及特征区域内所包括物体的上下文特征。其中，待处理图像中特征区域内所包括物体的区域物体特征用于描述该特征区域内的物体本身所具有的特征，特征区域内所包括物体的上下文特征用于描述该特征区域内的物体所处上下文环境的特征，即该特征区域内的物体与该待处理图像中除该特征区域之外的其他区域的图像内容之间的关系特征。其中，待处理图像的特征区域是指通过图像处理设备识别出的包含有特征物体的区域，待处理图像的特征区域可以是包含特征物体的任意形状的区域，例如，可以是矩形区域、圆形区域等；如图2所示，为本申请实施例提供的一种待处理图像的特征区域的示意图，其中，如201标记所示的物体“飞机”为待处理图像中的一个特征物体，该特征物体对应的特征区域可以如202标记所示。

在一个实施例中，图像处理设备对待处理图像进行视觉特征提取处理，得到待处理图像的视觉特征向量，可以包括：对待处理图像进行区域物体特征提取处理，得到待处理图像的区域物体特征向量；对待处理图像的区域物体特征向量进行上下文特征提取处理，得到待处理图像的视觉特征向量。

S102，对待处理图像的视觉特征向量进行字符预测处理，得到N个描述字符序列。

其中，N个描述字符序列中每个描述字符序列包括M个描述字符，N个描述字符序列中第一个描述字符序列是根据待处理图像的视觉特征向量得到的，N个描述字符序列中第t+1个描述字符序列是根据前t个描述字符序列得到的，M、N为大于1的整数，t为小于或等于N的正整数。

在一个实施例中，图像处理设备对待处理图像的视觉特征向量进行字符预测处理，得到N个描述字符序列，可以包括：对待处理图像的视觉特征向量以及待处理图像对应的第一参考描述字符序列进行字符预测处理，得到第一个描述字符序列；对待处理图像的视觉特征向量、第一参考描述字符序列以及第一个描述字符序列进行字符预测处理，得到第二个描述字符序列。也就是说，图像处理设备可以对待处理图像的视觉特征向量、第一参考描述字符序列以及前t个描述字符序列进行字符预测处理，得到第t+1个描述字符序列，直至得到第N个描述字符序列。其中，第一参考描述字符序列包括K个开始字符，K为小于或等于M的正整数；第一个描述字符序列中包括的M个描述字符是并行生成的，第二个描述字符序列中包括的M个描述字符是并行生成的，且N个描述字符序列中每个描述字符序列中包括的M个描述字符是并行生成的。其中，开始字符为用于指示开始进行字符预测处理的字符，具体可以为字符“<START>”；第一参考描述字符序列为由K个开始字符构成的用于指示开始进行字符预测处理的序列；例如，若K＝2，则第一参考描述字符序列可以为“<START><START>”。值得注意的是，若待处理图像不同，对不同待处理图像的视觉特征向量进行字符预测处理时，所得到的描述字符序列的数量可能不同。

具体实现中，图像处理设备对待处理图像的视觉特征向量、第一参考描述字符序列以及第一个描述字符序列进行字符预测处理，得到第二个描述字符序列时，具体可以是对待处理图像的视觉特征向量、以及由第一参考描述字符序列和第一个描述字符序列构成的序列，进行字符预测处理得到的。举例来说，假设M＝K＝2，即第一参考描述字符序列包括2个开始字符，每个描述字符序列中包括2个描述字符，即基于对待处理图像的视觉特征向量的每次处理得到由2个描述字符构成的描述字符序列；如图3所示，为本申请实施例提供的一种生成待处理图像的预测描述字符序列示意图，图像处理设备对如301标记所示的待处理图像进行视觉特征提取处理，得到该待处理图像的视觉特征向量；然后基于对待处理图像的视觉特征向量以及包括了2个开始字符的待处理图像对应的第一参考描述字符序列(“<START><START>”)进行字符预测处理，得到第一个描述字符序列(“Y1 Y2”)；然后对待处理图像的视觉特征向量、以及由第一参考描述字符序列和第一个描述字符序列构成的序列(“<START><START>Y1 Y2”)进行字符预测处理，得到第二个描述字符序列(“Y3 Y4”)，直至得到第N个描述字符序列；具体的，图像处理设备基于如301所示的待处理图像预测得到4个描述字符序列，其中第一个描述字符序列(即“Y1 Y2”)具体为“a airplane”，第二个描述字符序列(即“Y3 Y4”)具体为“that is”，第三个描述字符序列具体为“flying in”、第四个描述字符序列具体为“the sky”。进一步，根据该4个描述字符序列生成的待处理图像的预测描述字符序列为“a airplane that isflying in the sky”。

S103，根据N个描述字符序列生成待处理图像的预测描述字符序列。

在一个实施例中，待处理图像的预测描述字符序列为用于描述待处理图像的图像内容的文本序列，具体实现中，图像处理设备可以将N个描述字符序列进行拼接得到待处理图像的预测描述字符序列。

基于上述图像处理方案以及图像处理方法实施例，本申请实施例提供了另一种图像处理方法。本申请实施例提供的图像处理方法可以基于图像处理模型实现；该图像处理模型可以是基于机器翻译(Transformer)模型构建的，也可以时基于具有解码能力的卷积神经网络(Convolutional Neural Networks,CNN)构建的；该图像处理模型包括可以对图像进行视觉特征提取处理的编码模块，以及包括对经由编码模块进行视觉特征提取处理得到的图像的视觉特征向量进行字符预测处理的解码模块。如图4所示，为本申请实施例提供的一种图像处理模型的示意图，该图像处理模型是基于Transformer模型构建的，该图像处理模型的编码模块可包括基于区域的快速卷积神经网络(Faster－RCNN)以及L个由多头自注意力层(Multi-Head Self-Attention)以及前向全连接层(Feed-Forward)构成的编码器，该图像处理模型的解码模块可包括嵌入层、L个由多头自注意力层、多头跨域注意力层(Multi-Head Cross-Attention)以及前向全连接层(Feed-Forward)构成的解码器、线性层(Linear)以及归一化层。进一步的，嵌入层主要用于进行输出嵌入处理(即OutputEmbedding)以及位置嵌入处理(即Position Embedding)；解码器中包括的多头自注意力层可以为放宽限制的因果掩盖的多头自注意力层(Relaxed Causal Masked Multi-HeadSelf-Attention)；归一化层可以为采用了激活函数softmax函数的归一化层，即softmax层；L为正整数，例如L可以为6，即图像处理模型由6个编码器以及6个解码器构成。参见图5，为本申请实施例提供的一种图像处理方法的流程示意图。图5所示的图像处理方法可由图像处理设备执行。图5所示的图像处理方法可包括如下步骤：

S501，通过图像处理模型中的基于区域的快速卷积神经网络，对待处理图像进行区域物体特征提取处理，得到待处理图像的区域物体特征向量。

S502，通过图像处理模型中的编码器，对待处理图像的区域物体特征向量进行上下文特征提取处理，得到待处理图像的视觉特征向量。

步骤S501至步骤S502中，待处理图像的视觉特征向量可以指示：待处理图像中特征区域内所包括物体的区域物体特征，以及特征区域内所包括物体的上下文特征。其中，待处理图像中特征区域内所包括物体的区域物体特征用于描述该特征区域内的物体本身所具有的特征，特征区域内所包括物体的上下文特征用于描述该特征区域内的物体所处上下文环境的特征，即该特征区域内的物体与该待处理图像中除该特征区域之外的其他区域的图像内容之间的关系特征。

具体实现中，图像处理设备通过图像处理模型中的编码器，对待处理图像的区域物体特征向量进行上下文特征提取处理，得到待处理图像的视觉特征向量时，可以通过L个编码器进行处理，即通过L个编码器中的第一个编码器对待处理图像的区域物体特征向量进行上下文特征提取处理，然后通过第二个编码器对第一个编码器的输出结果进行上下文特征提取处理，直至通过第L个编码器对第L-1个编码器的输出结果进行上下文特征提取处理，进而得到待处理图像的视觉特征向量；通过L个编码器中的每个编码器进行处理时，先后通过编码器中的多头自注意力层以及前向全连接层进行处理。

S503，对待处理图像的视觉特征向量以及待处理图像对应的第一参考描述字符序列进行字符预测处理，得到第一个描述字符序列。

其中，第一参考描述字符序列包括K个开始字符；第一个描述字符序列包括M个描述字符，第一个描述字符序列是根据待处理图像的视觉特征向量得到的，第一个描述字符序列中包括的M个描述字符是并行生成的；K为小于或等于M的正整数。

在一个实施例中，图像处理设备对待处理图像的视觉特征向量以及待处理图像对应的第一参考描述字符序列进行字符预测处理，得到第一个描述字符序列，可以包括：对待处理图像的视觉特征向量以及第一参考描述字符序列进行特征交互处理，得到第一参考描述字符序列对应的预测向量；对第一参考描述字符序列对应的预测向量进行字符概率预测处理，得到M组预测字符的概率；M组预测字符的概率中每组预测字符的概率包括：每组预测字符内的各个预测字符对应的概率；基于M组预测字符的概率，从每组预测字符中确定描述字符，得到第一个描述字符序列。需要说明的是，所述第一参考描述字符序列对应的预测向量主要用于表明此时的预测向量是从第一参考描述字符出发得到的，最终确定的描述字符都是用来对待处理图像进行描述；后续还包括从第一个描述字符序列出发得到该第一个描述字符序列对应的预测向量，进而得到第二个描述字符序列。

具体实现中，图像处理设备对待处理图像的视觉特征向量以及第一参考描述字符序列进行特征交互处理，得到第一参考描述字符序列对应的预测向量，可以包括：通过图像处理模型中的嵌入层，对第一参考描述字符序列进行特征嵌入处理，得到第一参考描述字符序列对应的嵌入向量；通过图像处理模型中的L个解码器，对待处理图像的视觉特征向量以及第一参考描述字符序列对应的嵌入向量进行处理，得到第一参考描述字符序列对应的预测向量。具体实现中，图像处理设备可以通过L个解码器中的第一个解码器对待处理图像的视觉特征向量以及第一参考描述字符序列对应的嵌入向量进行处理，然后通过第二个解码器对待处理图像的视觉特征向量以及第一个解码器的输出结果进行处理，直至通过第L个解码器对待处理图像的视觉特征向量以及第L-1个解码器的输出结果进行处理，进而得到第一参考描述字符序列对应的预测向量；通过L个解码器中的每个解码器进行处理时，先后通过解码器中的多头自注意力层、多头跨域注意力层以及前向全连接层进行处理，待处理图像的视觉特征向量是通过输入至每个解码器中的多头跨域注意力层进行处理的。其中，图像处理设备通过图像处理模型中的嵌入层，对第一参考描述字符序列进行特征嵌入处理时，可以对第一参考描述字符序列进行输出嵌入处理(即Output Embedding)，以及位置嵌入处理(即Position Embedding)。

在一个实施例中，若图像处理模型是基于1个解码器构建的，则图像处理设备对待处理图像的视觉特征向量以及第一参考描述字符序列进行特征交互处理，得到第一参考描述字符序列对应的预测向量，可以包括：通过图像处理模型中的嵌入层，对第一参考描述字符序列进行特征嵌入处理，得到第一参考描述字符序列对应的嵌入向量；通过图像处理模型中的多头自注意力层，对第一参考描述字符序列对应的嵌入向量进行特征掩盖处理，得到第一参考描述字符序列对应的掩盖向量；通过图像处理模型中的多头跨域注意力层，对待处理图像的视觉特征向量以及第一参考描述字符序列对应的掩盖向量进行注意力交互处理，得到第一参考描述字符序列对应的交互向量；通过图像处理模型中的前向全连接层，对第一参考描述字符序列对应的交互向量进行全连接处理，得到第一参考描述字符序列对应的预测向量。

进一步的，图像处理设备对第一参考描述字符序列对应的预测向量进行字符概率预测处理，得到M组预测字符的概率，可以包括：通过图像处理模型中的线性层对第一参考描述字符序列对应的预测向量进行线性变换处理；然后将线性层的输出结果输入至softmax层进行归一化处理，得到M组预测字符的概率；其中，M组预测字符的概率中每组预测字符的概率包括：每组预测字符内的各个预测字符对应的概率。其中，每组预测字符内的各个预测字符是从候选字符中确定的，具体为通过图像处理模型预测的候选字符的概率中概率不为0的候选字符；也就是说，图像处理设备通过图像处理模型中的softmax层将线性层的输出结果映射为M组候选字符的概率，每组候选字符的概率中包括所有候选字符对应的概率；进而将每组候选字符的概率中概率不为0的候选字符确定为预测字符，得到M组预测字符的概率。其中，候选字符可以为图像描述领域或者自然语言处理(Nature Languageprocessing,NLP)领域等领域中技术人员常用的词典中包括的字符。

进一步的，图像处理设备基于M组预测字符的概率，从每组预测字符中确定描述字符，得到第一个描述字符序列，可以包括：将每组预测字符中最大概率所指示的预测字符确定为每组预测字符对应的描述字符，得到第一个描述字符序列。

举例来说，假设M＝K＝2，即第一参考描述字符序列包括2个开始字符，每个描述字符序列中包括2个描述字符，即基于对待处理图像的视觉特征向量的每次处理得到由2个描述字符构成的描述字符序列；如图6所示，为本申请实施例提供的一种根据待处理图像生成第一个描述字符序列的示意图；图像处理设备通过图像处理模型中的基于区域的快速卷积神经网络，对如601标记所示的待处理图像进行区域物体特征提取处理，得到待处理图像的区域物体特征向量；通过图像处理模型中的L个编码器，对待处理图像的区域物体特征向量进行上下文特征提取处理，得到待处理图像的视觉特征向量；通过图像处理模型中的嵌入层，对第一参考描述字符序列(“<START><START>”)进行特征嵌入处理，得到第一参考描述字符序列对应的嵌入向量；然后通过图像处理模型中L个解码器对待处理图像的视觉特征向量以及第一参考描述字符序列对应的嵌入向量进行处理，得到第一参考描述字符序列对应的预测向量，其中通过每个解码器中的多头跨域注意力层实现与待处理图像的视觉特征向量之间的交互；然后通过图像处理模型中的线性层对第一参考描述字符序列对应的预测向量进行线性变换处理，将线性层的输出结果输入至softmax层进行归一化处理，得到2组预测字符的概率；将每组预测字符中最大概率所指示的预测字符确定为每组预测字符对应的描述字符，得到第一个描述字符序列。若基于向量表征的第一组预测字符的概率的向量元素分别对应{a，one}，基于向量表征的第一组预测字符的概率为{60％，40％}，基于向量表征的第二组预测字符的概率的向量元素分别对应{airplane，bird}，基于向量表征的第二组预测字符的概率为{80％，20％}；则从第一组预测字符中确定出的描述字符为“a”，从第二组预测字符中确定出的描述字符为“airplane”，得到的第一个描述字符序列为“aairplane”。

S504，对待处理图像的视觉特征向量、第一参考描述字符序列以及第一个描述字符序列进行字符预测处理，得到第二个描述字符序列，直至得到第N个描述字符序列。

其中，第二个描述字符序列中包括的M个描述字符是并行生成的，每个描述字符序列中包括的M个描述字符是并行生成的。

在一个实施例中，图像处理设备对待处理图像的视觉特征向量、第一参考描述字符序列以及第一个描述字符序列进行字符预测处理，得到第二个描述字符序列时，具体可以是对待处理图像的视觉特征向量、以及由第一参考描述字符序列和第一个描述字符序列构成的序列，进行字符预测处理得到的；即将由第一参考描述字符序列和第一个描述字符序列构成的序列输入至图像处理模型的解码模块中得到的；该过程与上述步骤S503类似，在此不再赘述。

S505，根据N个描述字符序列生成待处理图像的预测描述字符序列。

其中步骤S505与上述步骤S203一致，在此不再赘述。

本申请实施例中，图像处理设备通过图像处理模型对待处理图像进行视觉特征提取处理，得到待处理图像的视觉特征向量；然后对待处理图像的视觉特征向量以及待处理图像对应的第一参考描述字符序列进行字符预测处理，得到第一个描述字符序列；对待处理图像的视觉特征向量、第一参考描述字符序列以及第一个描述字符序列进行字符预测处理，得到第二个描述字符序列，直至得到第N个描述字符序列；根据N个描述字符序列生成待处理图像的预测描述字符序列；其中，第一参考描述字符序列包括K个开始字符，每个描述字符序列包括M个描述字符，每个描述字符序列中包括的M个描述字符是并行生成的，M、N为大于1的整数，K为小于或等于M的正整数。也就是说，可以通过图像处理模型对待处理图像的视觉特征向量进行多次处理，得到多个描述字符序列；然后根据得到的多个描述字符序列生成用于描述待处理图像的图像内容的预测描述字符序列，其中，对待处理图像的视觉特征向量的每次处理得到一个包括了多个描述字符的描述字符序列，描述字符序列中包括的多个描述字符是并行生成的，可以减少对待处理图像的视觉特征向量的处理次数，可提高用于描述图像的图像内容的预测描述字符序列的生成速率。

上述图像处理方法实施例中所提供的图像处理模型是基于对初始图像处理模型进行训练得到的，初始图像处理模型与上述图像处理模型具有相同的模型结构，但模型参数不同；基于此，本申请实施例提供了一种初始图像处理模型的训练方法，参见图7，为本申请实施例提供的一种初始图像处理模型的训练方法的流程示意图。图7所示的初始图像处理模型的训练方法可由图像处理设备执行，也可以由任意能实现对初始图像处理模型进行训练的电子设备执行，本申请实施例以图像处理设备进行阐述。图7所示的初始图像处理模型的训练方法可包括如下步骤：

S701，获取训练样本。

其中，训练样本包括：训练样本图像以及训练样本图像的目标描述字符序列。训练样本图像可以为用于对初始图像处理模型进行训练的，与待处理图像不同的，包含有任意图像内容的图像；训练样本图像的目标描述字符序列是用于描述训练样本图像的图像内容的描述性文本。可选的，训练样本可以是从图像描述领域的常用数据集中获取到的，例如可以是从常用数据集MSCOCO数据集中获取到的。

S702，以训练样本图像的标签描述字符序列中包括的K个开始字符为基准，以M为增量，依次对训练样本图像的标签描述字符序列进行截取，得到训练样本图像对应的P个训练描述字符序列。

其中，训练样本图像的标签描述字符序列由K个开始字符和训练样本图像的目标描述字符序列构成，P为大于1的整数；训练样本图像对应的P个训练描述字符序列中每个训练描述字符序列包括K个开始字符。举例来说，若一个训练样本图像的目标描述字符序列为“dog laying on ground”，且K＝2，那么该训练样本图像的标签描述字符序列为“<START><START>dog laying on ground”。值得注意的是，当训练样本图像不同时，基于不同训练样本图像的目标描述字符序列构成的不同训练样本图像的标签描述字符序列的序列长度可能不同；当K为定值时，对序列长度不同的不同训练样本图像的标签描述字符序列进行截取时，得到的不同训练样本图像对应的训练描述字符序列的数量不同。

举例来说，假设M＝K＝2，若一个训练样本图像的目标描述字符序列为“doglaying on ground”，该训练样本图像的标签描述字符序列为“<START><START>dog layingon ground”；那么图像处理设备以训练样本图像的标签描述字符序列中包括的2个开始字符为基准，以2为增量，依次对训练样本图像的标签描述字符序列进行截取，可以得到训练样本图像对应的3个训练描述字符序列，分别为“<START><START>”、“<START><START>doglaying”以及“<START><START>dog laying on ground”。

S703，将训练样本图像作为初始图像处理模型的输入，并依次将P个训练描述字符序列作为初始图像处理模型的输入，将训练样本图像的目标描述字符序列作为期望输出，对初始图像处理模型进行训练，以优化得到图像处理模型。

在一个实施例中，图像处理设备将训练样本图像作为初始图像处理模型的输入，并依次将P个训练描述字符序列作为初始图像处理模型的输入，将训练样本图像的目标描述字符序列作为期望输出，对初始图像处理模型进行训练，以优化得到图像处理模型时，将训练样本图像作为初始图像处理模型的输入，通过初始图像处理模型对训练样本图像进行视觉特征提取处理，得到训练样本图像的视觉特征向量；然后依次将P个训练描述字符序列作为初始图像处理模型的输入，依次使P个训练描述字符序列中每个训练描述字符序列均与训练样本图像的视觉特征向量进行特征交互处理，依次得到每个训练描述字符序列对应的预测向量；依次对每个训练描述字符序列对应的预测向量进行字符概率预测处理，得到每个训练描述字符序列对应的M个训练预测字符的概率；基于每个训练描述字符序列对应的M个训练预测字符的概率、训练样本图像的目标描述字符序列以及损失函数，对初始图像处理模型进行训练，以优化得到图像处理模型。其中，一个训练描述字符序列对应的M个训练预测字符所构成的序列与该一个训练描述字符序列的下一个训练描述字符序列中，除该一个训练描述字符序列部分以外剩余的其他训练描述字符部分相同。如图8所示，为本申请实施例提供的一种基于初始图像处理模型对训练样本图像的标签描述字符序列进行处理的示意图，其中，训练样本图像如801标记所示，训练样本图像的目标描述字符序列为“doglaying on ground”，训练样本图像的标签描述字符序列为“<START><START>dog layingon ground”；依次将按照M为步长(即增量)对训练样本图像的标签描述字符序列进行截取后得到的训练描述字符序列输入至初始图像处理模型的解码模块中，得到多个训练预测字符的概率，即得到序列“dog laying on ground..”中每个训练预测字符的概率；其中“.”表示结束字符。

具体实现中，图像处理设备将训练样本图像作为初始图像处理模型的输入，通过初始图像处理模型对训练样本图像进行视觉特征提取处理，得到训练样本图像的视觉特征向量，与上述通过图像处理模型对待处理图像进行视觉特征提取处理，得到待处理图像的视觉特征向量过程类似，在此不再赘述。

进一步的，以P个训练描述字符序列中第一个训练描述字符序列进行示例性描述，即将P个训练描述字符序列中第一个训练描述字符序列作为初始图像处理模型的输入，使第一个训练描述字符序列与训练样本图像的视觉特征向量进行特征交互处理，得到第一个训练描述字符序列对应的预测向量。具体实现中，图像处理设备可以通过初始图像处理模型中的嵌入层，对第一个训练描述字符序列进行特征嵌入处理，得到第一个训练描述字符序列对应的嵌入向量；通过初始图像处理模型中的L个解码器，对训练样本图像的视觉特征向量以及第一个训练描述字符序列对应的嵌入向量进行处理，得到第一个训练描述字符序列对应的预测向量。具体实现中，图像处理设备可以通过初始图像处理模型中L个解码器中的第一个解码器对训练样本图像的视觉特征向量以及第一个训练描述字符序列对应的嵌入向量进行处理，然后通过第二个解码器对训练样本图像的视觉特征向量以及第一个解码器的输出结果进行处理，直至通过第L个解码器对训练样本图像的视觉特征向量以及第L-1个解码器的输出结果进行处理，进而得到第一个训练描述字符序列对应的预测向量。

进一步的，图像处理设备通过初始图像处理模型的L个解码器中的每个解码器进行处理时，先后通过解码器中的多头自注意力层、多头跨域注意力层以及前向全连接层进行处理；训练样本图像的视觉特征向量是通过输入至每个解码器中的多头跨域注意力层进行处理的。更进一步的，当初始图像处理模型中的解码器中包括的多头自注意力层为放宽限制的因果掩盖的多头自注意力层时；通过初始图像处理模型的L个解码器中的每个解码器进行处理时，可以先后通过解码器中的放宽限制的因果掩盖的多头自注意力层、多头跨域注意力层以及前向全连接层进行处理。其中，初始图像处理模型采用放宽限制的因果掩盖的多头自注意力层构建解码器，是为了通过放宽限制的因果掩盖的多头自注意力层对训练样本图像的标签描述字符序列进行顺序遮掩(即Sequence Mask)，进而使得通过初始图像处理模型在对P个训练描述字符序列中的一个训练描述字符序列进行处理时，只利用训练样本图像的标签描述字符序列中该一个训练描述字符序列的特征，并不会利用该训练样本图像的标签描述字符序列中该一个训练描述字符序列后剩余训练描述字符部分的特征；进而使得得到该一个训练描述字符序列对应的M个训练预测字符中每个训练预测字符的概率时，均利用的是该一个训练描述字符序列的特征；因此可以使得训练得到的图像处理模型只基于对第一参考描述字符序列以及前t个描述字符序列构成的序列的特征的利用，便可以生成M个描述字符以构成第t+1个描述字符序列，可以加快描述字符序列的生成速度。

举例来说，如图9所示，为本申请实施例提供的一种通过放宽限制的因果掩盖的多头自注意力层进行顺序遮掩的示意图，假设M＝K＝2，训练样本图像的标签描述字符序列为“<START><START>dog laying on ground”，在图9中如901标记所示，通过初始图像处理模型预测得到的多个训练预测字符的概率为序列“dog laying on ground..”中每个训练预测字符的概率，其中“.”表示结束字符，该序列“dog laying on ground..”在图9中如902标记所示；由图9可知，第一个训练描述字符序列对应的2个训练预测字符“dog laying”的概率是基于“<START><START>”所具有的特征得到的；第二个训练描述字符序列对应的2个训练预测字符“on ground”的概率是基于“<START><START>dog laying”所具有的特征得到的；第三个训练描述字符序列对应的2个训练预测字符“..”的概率是基于“<START><START>dog laying on ground”所具有的特征得到的。

进一步的，图像处理设备依次对每个训练描述字符序列对应的预测向量进行字符概率预测处理，得到每个训练描述字符序列对应的M个训练预测字符的概率时，一个训练描述字符序列对应的M个训练预测字符所构成的序列与该一个训练描述字符序列的下一个训练描述字符序列中，除该一个训练描述字符序列部分以外剩余的其他训练描述字符部分相同。举例来说，若训练样本图像对应的标签描述字符序列为“<START><START>dog layingon ground”，且M＝K＝2；以第一个训练描述字符序列“<START><START>”为例，该第一个训练描述字符序列对应2个训练预测字符所构成的序列为“dog laying”，与第二个训练描述字符序列“<START><START>dog laying”中，除<START><START>”以外的剩余的“doglaying”相同。具体实现中，以第一个训练描述字符序列为例，图像处理设备通过初始图像处理模型中的softmax层将线性层的输出结果映射为M组候选字符的概率，每组候选字符的概率中包括所有候选字符中各个候选字符所对应的概率；进而从每组候选字符的概率中确定每组候选字符对应的一个训练预测字符，得到第一个训练描述字符序列对应的M个训练预测字符的概率。

进一步的，图像处理设备基于每个训练描述字符序列对应的M个训练预测字符的概率、训练样本图像的目标描述字符序列以及损失函数，对初始图像处理模型进行训练，以优化得到图像处理模型时，可以基于每个训练描述字符序列对应的M个训练预测字符的概率、训练样本图像的目标描述字符序列确定损失函数的函数值，并朝着减小损失函数的函数值的方向对初始图像处理模型进行训练，以优化得到图像处理模型。其中，当M＝K时，训练函数可以由公式1给出：

其中，K为训练样本图像的标签描述字符序列中包括的开始字符的数量；P为对训练样本图像的标签描述字符序列进行截取得到的训练描述字符序列的数量，若训练样本图像的目标描述字符序列的序列长度为T，那么

t为用于指示第t组训练预测字符的变量(即第t个训练描述字符序列对应的M个训练预测字符)，其中，一组训练预测字符的数量为M个；y_i为训练样本图像的目标描述字符序列中第i个字符；I₁用于指示训练样本图像的视觉特征；θ₁为初始图像处理模型处理该训练样本图像时所采用的模型参数；G_＜t表示前t-1组训练预测字符构成的序列。举例来说，若训练样本图像的目标描述字符序列为“dog laying on ground”，训练样本图像的标签描述字符序列为“<START><START>doglaying on ground”，预测得到的序列为“dog laying on ground..”，K＝2；则T＝4，

P＝3，变量t的取值范围为1至2，第1组训练预测字符为“doglaying”，第2组训练预测字符为“on ground”。

在一个实施例中，图像处理模型可以是基于对初始图像处理模型进行训练得到的，也可以在对初始图像处理模型进行训练得到中间图像处理模型的基础上，对中间图像处理模型进行优化调节后得到的，中间图像处理模型与图像处理模型的模型结构相同，但模型参数不同。基于此，图像处理设备对中间图像处理模型进行优化调节，得到图像处理模型，可以包括：获取调节样本图像；将调节样本图像作为中间图像处理模型的输入，得到H组字符预测结果；其中，H组字符预测结果中每组字符预测结果包括：Q个结果描述字符序列，Q个结果描述字符序列中每个结果描述字符序列包括M个结果描述字符，Q个结果描述字符序列中第z+1个结果描述字符序列是根据前z个结果描述字符序列得到的，H、Q为大于1的整数，z为小于或等于Q的正整数；基于H组字符预测结果和梯度函数，对中间图像处理模型进行优化调节，得到图像处理模型。其中，调节样本图像可以为用于对中间图像处理模型进行优化调节的，与训练样本图像和待处理图像不同的，包含有任意图像内容的图像。可选的，调节样本图像可以是从图像描述领域的常用数据集中获取到的，例如可以是从常用数据集MSCOCO数据集中获取到的，与训练样本图像不同的图像。

在一个实施例中，图像处理设备将调节样本图像作为中间图像处理模型的输入，得到的H组字符预测结果中每组字符预测结果为通过中间图像处理模型预测得到的用于描述调节样本图像的图像内容的描述性文本，一组字符预测结果为一个字符序列，得到的H组字符预测结果中每组字符预测结果各不相同。值得注意的是，若调节样本图像不同，将不同调节样本图像作为中间图像处理模型的输入，得到的不同调节样本图像对应的H组字符预测结果中每组字符预测结果所包括的结果描述字符序列的数量可能不同。可以根据对中间图像处理模型的不同的优化调节需求设置不同的H，例如可以将H设置为5。具体实现中，图像处理设备可以将调节样本图像在中间图像处理模型中进行H次输入，以使通过中间图像处理模型对该调节样本图像进行H次处理，得到H组字符预测结果。

其中，通过中间图像处理模型对该调节样本图像进行单次处理，得到1组字符预测结果的相关过程，和通过图像处理模型对待处理图像进行处理得到待处理图像的预测描述字符序列的相关过程类似；但不同之处是，当通过图像处理模型对待处理图像进行处理，得到N个描述字符序列中的任一描述字符序列时，图像处理设备将该任一描述字符序列对应的M组预测字符中，每组预测字符中最大概率所指示的预测字符确定为每组预测字符对应的描述字符，以得到该任一描述字符序列。当通过中间图像处理模型对该调节样本图像进行H次处理得到H组字符预测结果时，该H组字符预测结果中的任一字符是基于对该任一字符对应的1组结果预测字符的概率采用预设规则确定的；其中，该1组结果预测字符为基于中间图像处理模型对该调节样本图像进行预测得到的多个候选字符中，概率不为0的字符。可以根据不同的调节需求对预设规则进行设定，例如，该预设规则可以指示：该H组字符预测结果中的任一字符是基于对该任一字符对应的1组结果预测字符的概率进行随机确定出的；或者，该H组字符预测结果中的第h组字符预测结果中的任一字符是：将该任一字符对应的1组结果预测字符的概率中按照概率从大到小排序时，排序为第h个的概率所对应的结果预测字符；其中，h为小于或等于H的正整数。

进一步的，图像处理设备基于H组字符预测结果和梯度函数，对中间图像处理模型进行优化调节，得到图像处理模型时，该梯度函数可以由公式2给出：

其中，H为字符预测结果的组数，h为字符预测结果组数的自变量，Z为一组字符预测结果的长度(即一组字符预测结果所包含字符的数量)，

表示第h组字符预测结果；I₂用于指示调节样本图像的视觉特征；θ₂为中间图像处理模型处理该调节样本图像时所采用的模型参数；R为打分函数，例如可以为基于评测指标CIDEr指标(全称：Consensus-basedImage Description Evaluation)的打分函数；b为基准分数。

在一个实施例中，基于图像描述领域中广泛使用的用于对实现图像描述功能的模型进行评测的评测指标，对本申请实施例所提出的图像处理模型以及用于实现图像描述功能的现有模型进行评测对比，发现本申请实施例提出的图像处理模型相较于现有模型来说，在图像描述功能的实现速率上有较大提升(即在生成用于描述图像的图像内容的描述性文本的速率上有较大提升)，并且能兼具有良好的生成质量(即生成的用于描述图像的图像内容的描述性文本的文本质量良好)，且本申请实施例所提出的图像处理模型易于训练。如表1所示，本申请实施例基于在图像描述领域中广泛使用的MSCOCO数据集。采用在图像描述领域中广泛使用的测评指标：用于评价生成质量的语言评估指标，其包括BLEU指标(全称：Bilingual Evaluation Understudy)、METEOR指标(全称：Metric for Evaluation ofTranslation with Explicit ORdering)、ROUGE指标(全称：Recall-Oriented Understudyfor Gisting Evaluation)、SPICE指标(全称：Semantic Propositional Image CaptionEvaluation)、CIDEr指标；用于评价生成速率的延迟指标(Latency)；用于评价模型算法的加速指标Speedup；其中BLEU指标按照具体计算方式的不同可以包括BLEU-1以及BLEU-4。对比评测了本申请实施例所提出的图像处理模型(以K＝4为例)以及现有模型中的属于自动回归模型(Autoregressive Model)的自动回归的图像描述模型(Autoregressive ImageCaptioning，AIC)；属于非自动回归模型(Non-autoregressive model)的快速非自动回归的图像描述模型(Fast Non-Autoregressive Image Captioning，FNIC)以及基于反事实批判的多智能体学习的非自动回归的图像描述模型(Non-autoregressive ImageCaptioning with Counterfactuals-Critical Multi-Agent Learning，CMAL)，和属于半自动回归模型(Partially Non-Autoregressive model)的半自动回归的图像描述模型(Partially Non-Autoregressive Image Captioning，PNAIC)。

表1

由对比结果可知，本申请实施例提出的图像处理模型相较于自动回归模型中的AIC在生成延迟上有较大缩短，即在生成速率上有较大提升；相较于非自动回归模型中的FNIC和CMAL模型来说，在生成质量上有一定的提升；相较于半自动回归模型中的PNAIC来说，在模型算法上更优。

本申请实施例中，图像处理设备可以基于包括了训练样本图像以及训练样本图像的目标描述字符序列的训练样本，对初始图像处理模型进行训练，得到图像处理模型；具体的，可以以训练样本图像的标签描述字符序列中包括的K个开始字符为基准，以M为增量，依次对训练样本图像的标签描述字符序列进行截取，得到训练样本图像对应的P个训练描述字符序列；然后再将训练样本图像作为初始图像处理模型的输入，并依次将P个训练描述字符序列作为初始图像处理模型的输入，将训练样本图像的目标描述字符序列作为期望输出，对初始图像处理模型进行训练，以优化得到图像处理模型；其中，P个训练描述字符序列中每个训练描述字符序列包括M个训练描述字符，M、P为大于1的整数，K为小于或等于M的正整数。可以使得通过训练得到的图像处理模型对待处理图像进行处理时，可以基于待处理图像的视觉特征向量以及K个开始字符预测得到待处理图像所对应的N个描述字符序列，N个描述字符序列中每个描述字符序列包括M个描述字符；可以减少图像处理模型对待处理图像的视觉特征向量的处理次数，可提高图像处理模型生成用于描述图像的图像内容的预测描述字符序列的速率。并且，进一步可以基于梯度函数，对初始图像处理模型进行训练后得到的中间图像处理模型进行优化调节，得到图像处理模型，此时所得到的图像处理模型生成用于描述图像的图像内容的预测描述字符序列的质量更高。

基于上述图像处理方法实施例，本申请实施例提供了一种图像处理装置。参见图10，为本申请实施例提供的一种图像处理装置的结构示意图，该图像处理装置可包括获取单元1001以及处理单元1002。图10所示的图像处理装置可运行如下单元：

处理单元1002，用于对待处理图像进行视觉特征提取处理，得到所述待处理图像的视觉特征向量；

所述处理单元1002，还用于对所述待处理图像的视觉特征向量进行字符预测处理，得到N个描述字符序列；其中，所述N个描述字符序列中每个描述字符序列包括M个描述字符，所述N个描述字符序列中第一个描述字符序列是根据所述待处理图像的视觉特征向量得到的，所述N个描述字符序列中第t+1个描述字符序列是根据前t个描述字符序列得到的，M、N为大于1的整数，t为小于或等于N的正整数；

所述处理单元1002，还用于根据所述N个描述字符序列生成所述待处理图像的预测描述字符序列。

在一个实施例中，所述处理单元1002对所述待处理图像的视觉特征向量进行字符预测处理，得到N个描述字符序列时，具体执行如下操作：

对所述待处理图像的视觉特征向量以及所述待处理图像对应的第一参考描述字符序列进行字符预测处理，得到所述第一个描述字符序列；所述第一参考描述字符序列包括K个开始字符，所述第一个描述字符序列中包括的M个描述字符是并行生成的，K为小于或等于M的正整数；

对所述待处理图像的视觉特征向量、所述第一参考描述字符序列以及所述第一个描述字符序列进行字符预测处理，得到第二个描述字符序列；所述第二个描述字符序列中包括的M个描述字符是并行生成的。

在一个实施例中，所述处理单元1002对待处理图像进行视觉特征提取处理，得到所述待处理图像的视觉特征向量时，具体执行如下操作：

通过图像处理模型中的基于区域的快速卷积神经网络，对所述待处理图像进行区域物体特征提取处理，得到所述待处理图像的区域物体特征向量；

通过所述图像处理模型中的编码器，对所述待处理图像的区域物体特征向量进行上下文特征提取处理，得到所述待处理图像的视觉特征向量。

在一个实施例中，所述处理单元1002对所述待处理图像的视觉特征向量以及所述待处理图像对应的第一参考描述字符序列进行字符预测处理，得到所述第一个描述字符序列时，具体执行如下操作：

对所述待处理图像的视觉特征向量以及所述第一参考描述字符序列进行特征交互处理，得到所述第一参考描述字符序列对应的预测向量；

对所述第一参考描述字符序列对应的预测向量进行字符概率预测处理，得到M组预测字符的概率；所述M组预测字符的概率中每组预测字符的概率包括：每组预测字符内的各个预测字符对应的概率；

基于所述M组预测字符的概率，从每组预测字符中确定描述字符，得到所述第一个描述字符序列。

在一个实施例中，所述处理单元1002对所述待处理图像的视觉特征向量以及所述第一参考描述字符序列进行特征交互处理，得到所述第一参考描述字符序列对应的预测向量时，具体执行如下操作：

通过图像处理模型中的嵌入层，对所述第一参考描述字符序列进行特征嵌入处理，得到所述第一参考描述字符序列对应的嵌入向量；

通过所述图像处理模型中的多头自注意力层，对所述第一参考描述字符序列对应的嵌入向量进行特征掩盖处理，得到所述第一参考描述字符序列对应的掩盖向量；

通过所述图像处理模型中的多头跨域注意力层，对所述待处理图像的视觉特征向量以及所述第一参考描述字符序列对应的掩盖向量进行注意力交互处理，得到所述第一参考描述字符序列对应的交互向量；

通过所述图像处理模型中的前向全连接层，对所述第一参考描述字符序列对应的交互向量进行全连接处理，得到所述第一参考描述字符序列对应的预测向量。

在一个实施例中，所述处理单元1002基于所述M组预测字符的概率，从每组预测字符中确定描述字符，得到所述第一个描述字符序列时，具体执行如下操作：

将所述每组预测字符中最大概率所指示的预测字符确定为所述每组预测字符对应的描述字符，得到所述第一个描述字符序列。

在一个实施例中，所述图像处理模型是基于对初始图像处理模型进行训练得到的；

所述获取单元1001，用于获取训练样本，所述训练样本包括：训练样本图像以及所述训练样本图像的目标描述字符序列；

所述处理单元1002，还用于以所述训练样本图像的标签描述字符序列中包括的K个开始字符为基准，以M为增量，依次对所述训练样本图像的标签描述字符序列进行截取，得到所述训练样本图像对应的P个训练描述字符序列；所述训练样本图像的标签描述字符序列由所述K个开始字符和所述训练样本图像的目标描述字符序列构成，P为大于1的整数；

所述处理单元1002，还用于将所述训练样本图像作为所述初始图像处理模型的输入，并依次将所述P个训练描述字符序列作为所述初始图像处理模型的输入，将所述训练样本图像的目标描述字符序列作为期望输出，对所述初始图像处理模型进行训练，以优化得到所述图像处理模型。

在一个实施例中，所述图像处理模型是对所述初始图像处理模型进行训练后得到的中间图像处理模型进行优化调节后得到的；

所述获取单元1001，还用于获取调节样本图像；

所述处理单元1002，还用于将所述调节样本图像作为所述中间图像处理模型的输入，得到H组字符预测结果；其中，所述H组字符预测结果中每组字符预测结果包括：Q个结果描述字符序列，所述Q个结果描述字符序列中每个结果描述字符序列包括M个结果描述字符，所述Q个结果描述字符序列中第z+1个结果描述字符序列是根据前z个结果描述字符序列得到的，H、Q为大于1的整数，z为小于或等于Q的正整数；

所述处理单元1002，还用于基于所述H组字符预测结果和梯度函数，对所述中间图像处理模型进行优化调节，得到所述图像处理模型。

根据本申请的一个实施例，图1、图5以及图7所示的图像处理方法所涉及各个步骤可以是由图10所示的图像处理装置中的各个单元来执行的。例如，图1所示的步骤S101至步骤S103可由图10所示的图像处理装置中的处理单元1002来执行。又如，图5所示的步骤S501至步骤S505可由图10所示的图像处理装置中的处理单元1002来执行。再如，图7所示的步骤S701可由图10所示的图像处理装置中的获取单元1001来执行，图7所示的步骤S702至步骤S703可由图10所示的图像处理装置中的处理单元1002来执行。

根据本申请的另一个实施例，图10所示的图像处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，基于逻辑功能划分的图像处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图1、图5以及图7所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图10中所示的图像处理装置，以及来实现本申请实施例图像处理方法。所述计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于上述计算设备中，并在其中运行。

本申请实施例中，处理单元1002可以对待处理图像进行视觉特征提取处理，得到待处理图像的视觉特征向量；然后对待处理图像的视觉特征向量进行字符预测处理，得到N个描述字符序列；根据N个描述字符序列生成待处理图像的预测描述字符序列；其中，N个描述字符序列中每个描述字符序列包括M个描述字符，N个描述字符序列中第一个描述字符序列是根据待处理图像的视觉特征向量得到的，N个描述字符序列中第t+1个描述字符序列是根据前t个描述字符序列得到的，M、N为大于1的整数，t为小于或等于N的正整数。也就是说，可以对待处理图像的视觉特征向量进行多次处理，得到多个描述字符序列；然后根据得到的多个描述字符序列生成用于描述待处理图像的图像内容的预测描述字符序列，其中，对待处理图像的视觉特征向量的每次处理得到一个包括了多个描述字符的描述字符序列，可以减少对待处理图像的视觉特征向量的处理次数，可提高用于描述图像的图像内容的预测描述字符序列的生成速率。

基于上述的图像处理方法实施例以及图像处理装置实施例，本申请还提供了一种图像处理设备。参见图11，为本申请实施例提供的一种图像处理设备的结构示意图。图11所示的图像处理设备可至少包括处理器1101、输入接口1102、输出接口1103以及计算机存储介质1104。其中，处理器1101、输入接口1102、输出接口1103以及计算机存储介质1104可通过总线或其他方式连接。

计算机存储介质1104可以存储在图像处理设备的存储器中，计算机存储介质1104用于存储计算机程序，计算机程序包括程序指令，处理器1101用于执行计算机存储介质1104存储的程序指令。处理器1101(或称CPU(Central Processing Unit，中央处理器))是图像处理设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现上述图像处理方法流程或相应功能。

本申请实施例还提供了一种计算机存储介质(Memory)，计算机存储介质是图像处理设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括终端中的内置存储介质，当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器1101加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速随机存取存储器(random access memory，RAM)存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，可由处理器1101以及输入接口1102加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关图1、图5以及图7的图像处理方法实施例中的方法的相应步骤，具体实现中，计算机存储介质中的一条或多条指令由处理器1101加载并执行如下步骤：

在一个实施例中，所述处理器1101对所述待处理图像的视觉特征向量进行字符预测处理，得到N个描述字符序列时，具体执行如下操作：

在一个实施例中，所述处理器1101对待处理图像进行视觉特征提取处理，得到所述待处理图像的视觉特征向量时，具体执行如下操作：

在一个实施例中，所述处理器1101对所述待处理图像的视觉特征向量以及所述待处理图像对应的第一参考描述字符序列进行字符预测处理，得到所述第一个描述字符序列时，具体执行如下操作：

在一个实施例中，所述处理器1101对所述待处理图像的视觉特征向量以及所述第一参考描述字符序列进行特征交互处理，得到所述第一参考描述字符序列对应的预测向量时，具体执行如下操作：

在一个实施例中，所述处理器1101基于所述M组预测字符的概率，从每组预测字符中确定描述字符，得到所述第一个描述字符序列时，具体执行如下操作：

所述输入接口1102，用于获取训练样本，所述训练样本包括：训练样本图像以及所述训练样本图像的目标描述字符序列；

所述处理器1101，还用于以所述训练样本图像的标签描述字符序列中包括的K个开始字符为基准，以M为增量，依次对所述训练样本图像的标签描述字符序列进行截取，得到所述训练样本图像对应的P个训练描述字符序列；所述训练样本图像的标签描述字符序列由所述K个开始字符和所述训练样本图像的目标描述字符序列构成，P为大于1的整数；

所述处理器1101，还用于将所述训练样本图像作为所述初始图像处理模型的输入，并依次将所述P个训练描述字符序列作为所述初始图像处理模型的输入，将所述训练样本图像的目标描述字符序列作为期望输出，对所述初始图像处理模型进行训练，以优化得到所述图像处理模型。

所述输入接口1102，还用于获取调节样本图像；

所述处理器1101，还用于将所述调节样本图像作为所述中间图像处理模型的输入，得到H组字符预测结果；其中，所述H组字符预测结果中每组字符预测结果包括：Q个结果描述字符序列，所述Q个结果描述字符序列中每个结果描述字符序列包括M个结果描述字符，所述Q个结果描述字符序列中第z+1个结果描述字符序列是根据前z个结果描述字符序列得到的，H、Q为大于1的整数，z为小于或等于Q的正整数；

所述处理器1101，还用于基于所述H组字符预测结果和梯度函数，对所述中间图像处理模型进行优化调节，得到所述图像处理模型。

本申请实施例提供了一种计算机程序产品或计算机程序，计算机程序产品包括计算机程序，该计算机程序存储在计算机存储介质中；图像处理设备的处理器从计算机存储介质中读取该计算机程序，处理器执行该计算机程序，使得图像处理设备执行上述如图1、图5以及图7所示的方法实施例。其中，计算机可读存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述对所述待处理图像的视觉特征向量进行字符预测处理，得到N个描述字符序列，包括：

3.如权利要求1所述的方法，其特征在于，所述对待处理图像进行视觉特征提取处理，得到所述待处理图像的视觉特征向量，包括：

4.如权利要求2所述的方法，其特征在于，所述对所述待处理图像的视觉特征向量以及所述待处理图像对应的第一参考描述字符序列进行字符预测处理，得到所述第一个描述字符序列，包括：

5.如权利要求4所述的方法，其特征在于，所述对所述待处理图像的视觉特征向量以及所述第一参考描述字符序列进行特征交互处理，得到所述第一参考描述字符序列对应的预测向量，包括：

6.如权利要求4所述的方法，其特征在于，所述基于所述M组预测字符的概率，从每组预测字符中确定描述字符，得到所述第一个描述字符序列，包括：

7.如权利要求1所述的方法，其特征在于，所述图像处理模型是基于对初始图像处理模型进行训练得到的；所述方法还包括：

获取训练样本，所述训练样本包括：训练样本图像以及所述训练样本图像的目标描述字符序列；

以所述训练样本图像的标签描述字符序列中包括的K个开始字符为基准，以M为增量，依次对所述训练样本图像的标签描述字符序列进行截取，得到所述训练样本图像对应的P个训练描述字符序列；所述训练样本图像的标签描述字符序列由所述K个开始字符和所述训练样本图像的目标描述字符序列构成，P为大于1的整数；

将所述训练样本图像作为所述初始图像处理模型的输入，并依次将所述P个训练描述字符序列作为所述初始图像处理模型的输入，将所述训练样本图像的目标描述字符序列作为期望输出，对所述初始图像处理模型进行训练，以优化得到所述图像处理模型。

8.如权利要求7所述的方法，其特征在于，所述图像处理模型是对所述初始图像处理模型进行训练后得到的中间图像处理模型进行优化调节后得到的；所述方法还包括：

获取调节样本图像；

将所述调节样本图像作为所述中间图像处理模型的输入，得到H组字符预测结果；其中，所述H组字符预测结果中每组字符预测结果包括：Q个结果描述字符序列，所述Q个结果描述字符序列中每个结果描述字符序列包括M个结果描述字符，所述Q个结果描述字符序列中第z+1个结果描述字符序列是根据前z个结果描述字符序列得到的，H、Q为大于1的整数，z为小于或等于Q的正整数；

基于所述H组字符预测结果和梯度函数，对所述中间图像处理模型进行优化调节，得到所述图像处理模型。

9.一种图像处理装置，其特征在于，包括：

所述图像处理装置包括获取单元以及处理单元，所述获取单元以及所述处理单元用于执行如权利要求1-8任一项所述的图像处理方法。

10.一种图像处理设备，其特征在于，所述图像处理设备包括输入接口和输出接口，还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-8任一项所述的图像处理方法。

11.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行如权利要求1-8任一项所述的图像处理方法。

12.一种计算机程序产品或计算机程序，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时，用于加载并执行如权利要求1-8任一项所述的图像处理方法。