CN110046616A

CN110046616A - 图像处理模型生成、图像处理方法、装置、终端设备及存储介质

Info

Publication number: CN110046616A
Application number: CN201910161250.6A
Authority: CN
Inventors: 涂必超; 陈平
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-03-04
Filing date: 2019-03-04
Publication date: 2019-07-23
Anticipated expiration: 2039-03-04
Also published as: CN110046616B

Abstract

本发明提供了一种图像处理模型生成方法、图像处理方法、装置、终端设备及存储介质。所述图像处理方法包括：将第一待处理图像输入预先训练好的目标图像处理模型；其中，所述目标图像处理模型包括维度转换层和输出层；调用所述维度转换层，对所述第一待处理图像对应的第一四维特征进行维度合并处理，得到第二四维特征；调用所述输出层，对所述第二四维特征进行卷积运算，生成第二待处理图像；其中，所述第二待处理图像包含多个文本框对应顶点的坐标值；依据各所述文本框对应顶点的坐标值，对各所述文本框中的至少两个所述文本框进行合并处理，生成至少一个目标文本框；输出所述至少一个目标文本框。本发明可以提高待处理图像中长文本检测的准确率。

Description

图像处理模型生成、图像处理方法、装置、终端设备及存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种图像处理模型生成方法、图像处理方法、装置、终端设备及存储介质。

背景技术

自然场景文字是图像高层语义的一种重要载体，近些年自然场景图像中的文本识别技术越来越引起人们的重视。文本识别技术可以分为两个步骤：文本检测和文本识别，二者缺一不可，尤其是文本检测，是文本识别的前提条件。

而传统的图像中的文本检测方法，通常是基于深度学习的文本检测方式，是通过采用多步策略进行的，在训练过程中，需要对其中的多个步骤进行调优，而其中多步调优的方式势必会影响最终的模型效果，导致图像中的文本检测效果较差，尤其对于图像中的长文本，检测错误率较高。

发明内容

本发明实施例所要解决的技术问题是提供一种图像处理模型生成方法、图像处理方法、装置、终端设备及存储介质，以解决现有技术中对图像中的文本检测效果较差，尤其对于图像中的长文本检测错误率较高的技术问题。

为了解决上述问题，本发明实施例提供了一种图像处理模型生成方法，包括：将多个训练样本图像输入第一图像处理模型；其中，所述第一图像处理模型包括维度转换层和输出层，所述训练样本图像包括多个原始文本框中每个原始文本框的顶点的初始坐标；调用所述维度转换层，对每个所述训练样本图像对应的第一四维特征进行维度合并处理，得到各所述训练样本图像对应的第二四维特征；调用所述输出层，对所述第二四维特征进行卷积运算，生成与每个所述训练样本图像对应的预测图像；所述预测图像包含多个检测文本框中每个检测文本框的顶点的预测坐标；基于各所述初始坐标以及各所述预测坐标，获取所述第一图像处理模型的损失值；在所述损失值处于预设范围内的情况下，将所述第一图像处理模型作为目标图像处理模型。

优选地，所述维度转换层包括第一双向长短时记忆网络层和第二双向长短时记忆网络层；所述调用所述维度转换层，对每个训练样本图像对应的第一四维特征进行维度合并处理，得到第二四维特征，包括：对所述第一四维特征的第一维的特征和第二维的特征进行合并处理，生成第一初始三维特征；调用所述第一双向长短时记忆网络层，提取并输出所述第一初始三维特征中的竖向的初始时间序列特征；所述竖向的初始时间序列特征为四维特征；对所述竖向的初始时间序列的第一维的特征和第三维的特征进行合并处理，生成第二初始三维特征；调用所述第二双向长短时记忆网络层，提取并输出所述第二初始三维特征中的横向的初始时间序列特征，将所述横向的初始时间序列特征作为所述第二四维特征。

为了解决上述问题，本发明实施例提供了一种图像处理方法，包括：将第一待处理图像输入预先训练好的目标图像处理模型；其中，所述目标图像处理模型包括维度转换层和输出层；调用所述维度转换层，对所述第一待处理图像对应的第一四维特征进行维度合并处理，得到第二四维特征；调用所述输出层，对所述第二四维特征进行卷积运算，生成第二待处理图像；其中，所述第二待处理图像包含多个文本框对应顶点的坐标值；依据各所述文本框对应顶点的坐标值，对各所述文本框中的至少两个所述文本框进行合并处理，生成至少一个目标文本框；输出所述至少一个目标文本框。

优选地，所述维度转换层包括第一双向长短时记忆网络层和第二双向长短时记忆网络层；所述调用所述维度转换层，对所述第一待处理图像对应的第一四维特征进行维度合并处理，得到第二四维特征，包括：对所述第一四维特征的第一维的特征和第二维的特征进行合并处理，生成第一三维特征；调用所述第一双向长短时记忆网络层，提取并输出所述第一三维特征中的竖向的时间序列特征；所述竖向的时间序列特征为四维特征；对所述竖向的时间序列特征的第一维的特征和第三维的特征进行合并处理，生成第二三维特征；调用所述第二双向长短时记忆网络层，提取并输出所述第二三维特征中的横向的时间序列特征，将所述横向的时间序列特征作为所述第二四维特征。

优选地，所述调用所述输出层，对所述第二四维特征进行卷积运算，生成第二待处理图像，包括：调用所述输出层，检测出所述第二四维特征中的多个文本特征；获取所述多个文本特征中处于同一行中不间断的第一文本特征，及同一行中间断的多个第二文本特征；生成包含所述第一文本特征和各所述第二文本特征的最小的文本框，得到添加有文本框的三维特征；输出所述添加有文本框的三维特征，得到所述第二待处理图像。

优选地，所述依据各所述文本框对应顶点的坐标值，对各所述文本框中的至少两个所述文本框进行合并处理，生成至少一个目标文本框，包括：获取各所述文本框中的各有效文本框；依据各所述有效文本框对应顶点的坐标值，获取各所述有效文本框中相邻的两个有效文本框；对所述相邻的两个有效文本框进行合并处理，生成所述目标文本框。

优选地，所述对所述相邻的两个有效文本框进行合并处理，生成所述目标文本框，包括：依据所述相邻的两个有效文本框的各顶点分别对应的坐标，获取最大横坐标、最小横坐标、最大纵坐标和最小纵坐标；依据所述最大横坐标、所述最小横坐标、所述最大纵坐标和所述最小纵坐标，生成第一目标文本框；获取所述相邻的两个有效文本框分别对应的分数值；对所述相邻的两个有效文本框和所述分数值进行加权平均处理，生成第二目标文本框；获取所述第一目标文本框和所述第二目标文本框分别对应的第一目标分数值和第二目标分数值；对所述第一目标文本框、所述第二目标文本框、所述第一目标分数值和所述第二目标分数值进行加权平均处理，生成所述目标文本框。

优选地，在所述依据各所述文本框对应顶点的坐标值，对各所述文本框中的至少两个所述文本框进行合并处理，生成至少一个目标文本框之后，还包括：从各所述目标文本框中，获取位于所述第二待处理图像的预设区域内至少一个目标有效文本框；依据各所述目标有效文本框对应顶点的坐标值，计算各所述目标有效文本框的高度值；依据各所述高度值，计算得到平均高度值；计算相邻两个所述目标有效文本框之间的间隔距离；在所述间隔距离小于所述平均高度值的情况下，合并相邻两个所述目标有效文本框；所述输出所述至少一个目标文本框，包括：依据各所述目标有效文本框在所述第二待处理图像中的位置信息，对各所述目标有效文本框进行排序；输出排序后的各所述目标有效文本框。

为了解决上述问题，本发明实施例提供了一种图像处理模型生成装置，包括：样本图像输入模块，用于将多个训练样本图像输入第一图像处理模型；其中，所述第一图像处理模型包括维度转换层和输出层，所述训练样本图像包括多个原始文本框中每个原始文本框的顶点的初始坐标；维度合并处理模块，用于调用所述维度转换层，对每个所述训练样本图像对应的第一四维特征进行维度合并处理，得到各所述训练样本图像对应的第二四维特征；预测图像生成模块，用于调用所述输出层，对所述第二四维特征进行卷积运算，生成与每个所述训练样本图像对应的预测图像；所述预测图像包含多个检测文本框中每个检测文本框的顶点的预测坐标；损失值获取模块，用于基于各所述初始坐标以及各所述预测坐标，获取所述第一图像处理模型的损失值；目标图像处理模型获取模块，用于在所述损失值处于预设范围内的情况下，将所述第一图像处理模型作为目标图像处理模型。

优选地，所述维度转换层包括第一双向长短时记忆网络层和第二双向长短时记忆网络层；所述维度合并处理模块包括：第一初始三维特征生成子模块，用于对所述第一四维特征的第一维的特征和第二维的特征进行合并处理，生成第一初始三维特征；初始竖向时间序列提取子模块，用于调用所述第一双向长短时记忆网络层，提取并输出所述第一初始三维特征中的竖向的初始时间序列特征；所述竖向的初始时间序列特征为四维特征；第二初始三维特征生成子模块，用于对所述竖向的初始时间序列的第一维的特征和第三维的特征进行合并处理，生成第二初始三维特征；初始横向时间序列提取子模块，用于调用所述第二双向长短时记忆网络层，提取并输出所述第二初始三维特征中的横向的初始时间序列特征，将所述横向的初始时间序列特征作为所述第二四维特征。

为了解决上述问题，本发明实施例提供了一种图像处理装置，包括：待处理图像输入模块，用于将第一待处理图像输入预先训练好的目标图像处理模型；其中，所述目标图像处理模型包括维度转换层和输出层；四维特征获取模块，用于调用所述维度转换层，对所述第一待处理图像对应的第一四维特征进行维度合并处理，得到第二四维特征；第二图像生成模块，用于调用所述输出层，对所述第二四维特征进行卷积运算，生成第二待处理图像；其中，所述第二待处理图像包含多个文本框对应顶点的坐标值；目标文本框生成模块，用于依据各所述文本框对应顶点的坐标值，对各所述文本框中的至少两个所述文本框进行合并处理，生成至少一个目标文本框；目标文本框输出模块，用于输出所述至少一个目标文本框。

优选地，所述维度转换层包括第一双向长短时记忆网络层和第二双向长短时记忆网络层；所述四维特征获取模块包括：第一三维特征生成子模块，用于对所述第一四维特征的第一维的特征和第二维的特征进行合并处理，生成第一三维特征；竖向序列特征提取子模块，用于调用所述第一双向长短时记忆网络层，提取并输出所述第一三维特征中的竖向的时间序列特征；所述竖向的时间序列特征为四维特征；第二三维特征生成子模块，用于对所述竖向的时间序列特征的第一维的特征和第三维的特征进行合并处理，生成第二三维特征；横向序列特征提取子模块，用于调用所述第二双向长短时记忆网络层，提取并输出所述第二三维特征中的横向的时间序列特征，将所述横向的时间序列特征作为所述第二四维特征。

优选地，所述第二图像生成模块包括：文本特征检测子模块，用于调用所述输出层，检测出所述第二四维特征中的多个文本特征；一二文本特征获取子模块，用于获取所述多个文本特征中处于同一行中不间断的第一文本特征，及同一行中间断的多个第二文本特征；三维特征获取子模块，用于生成包含所述第一文本特征和各所述第二文本特征的最小的文本框，得到添加有文本框的三维特征；第二图像获取子模块，用于输出所述添加有文本框的三维特征，得到所述第二待处理图像。

优选地，所述目标文本框生成模块包括：有效文本框获取子模块，用于获取各所述文本框中的各有效文本框；相邻文本框获取子模块，用于依据各所述有效文本框对应顶点的坐标值，获取各所述有效文本框中相邻的两个有效文本框；第一目标文本框生成子模块，用于对所述相邻的两个有效文本框进行合并处理，生成所述目标文本框。

优选地，所述第一目标文本框生成子模块包括：最大最小坐标获取子模块，用于依据所述相邻的两个有效文本框的各顶点分别对应的坐标，获取最大横坐标、最小横坐标、最大纵坐标和最小纵坐标；第一目标文本框生成子模块，用于依据所述最大横坐标、所述最小横坐标、所述最大纵坐标和所述最小纵坐标，生成第一目标文本框；分数值获取子模块，用于获取所述相邻的两个有效文本框分别对应的分数值；第二目标文本框生成子模块，用于对所述相邻的两个有效文本框和所述分数值进行加权平均处理，生成第二目标文本框；目标分数值获取子模块，用于获取所述第一目标文本框和所述第二目标文本框分别对应的第一目标分数值和第二目标分数值；第二目标文本框生成子模块，用于对所述第一目标文本框、所述第二目标文本框、所述第一目标分数值和所述第二目标分数值进行加权平均处理，生成所述目标文本框。

优选地，还包括：目标有效文本框获取模块，用于从各所述目标文本框中，获取位于所述第二待处理图像的预设区域内至少一个目标有效文本框；文本框高度值计算模块，用于依据各所述目标有效文本框对应顶点的坐标值，计算各所述目标有效文本框的高度值；平均高度值计算模块，用于依据各所述高度值，计算得到平均高度值；间隔距离计算模块，用于计算相邻两个所述目标有效文本框之间的间隔距离；有效文本框合并模块，用于在所述间隔距离小于所述平均高度值的情况下，合并相邻两个所述目标有效文本框；所述目标文本框输出模块包括：目标文本框排序子模块，用于依据各所述目标有效文本框在所述第二待处理图像中的位置信息，对各所述目标有效文本框进行排序；目标文本框输出子模块，用于输出排序后的各所述目标有效文本框。

为了解决上述问题，本发明实施例提供了一种终端设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述任一项所述的图像处理模型生成方法的步骤，及上述任一项所述的图像处理方法的步骤。

为了解决上述问题，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的图像处理模型生成方法中的步骤，及上述任一项所述的图像处理方法的步骤。

与现有技术相比，本发明实施例包括以下优点：

本发明实施例中，将第一待处理图像输入预先训练好的目标图像处理模型，其中，目标图像处理模型包括维度输出层和输出层，调用维度转换层，对第一待处理图像对应的第一四维特征进行维度合并处理，得到第二四维特征，调用输出层，对第二四维特征进行卷积运算，生成第二待处理图像，第二待处理图像包含多个文本框对应顶点的坐标值，依据各文本框对应顶点的坐标值，对各文本框中的至少两个文本框进行合并处理，生成并输出至少一个目标文本框。本发明实施例通过对待处理图像对应的四维特征进行合并处理的过程，即通过对待处理图像不同维度的特征进行合并，并提取相应的时间序列特征，从而可以增加网络在不同方向上的感受视野，从而可以提高文本检测的准确率，并且，通过对文本框进行合并，避免了长文本被文本框隔开，进而可以有效检测出待处理图像中的长文本，可以提高对待处理图像中的长文本的检测准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

图1是本发明实施例提供的一种图像处理模型生成方法的步骤流程图；

图2是本发明实施例提供的一种包含文本信息的图像的示意图；

图3是本发明实施例提供的一种图像处理模型结构的示意图；

图4是本发明实施例提供的一种图像处理方法的步骤流程图；

图5是本发明实施例提供的一种原图及图像处理结果图的示意图；

图6是本发明实施例提供的一种文本框的示意图；

图7是本发明实施例提供的一种图像处理方法的步骤流程图；

图8是本发明实施例提供的一种图像处理模型生成装置的结构示意图；

图9是本发明实施例提供的一种图像处理装置的结构示意图；

图10是本发明实施例提供的一种图像处理装置的结构示意图。

具体实施方式

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二等来描述图像处理模型，但这些图像处理模型不应限于这些术语。这些术语仅用来将图像处理模型彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一图像处理模型也可以被称为第二图像处理模型，类似地，第二图像处理模型也可以被称为第一图像处理模型。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

参照图1，示出了本发明实施例提供的一种图像处理模型生成方法的步骤流程图，具体可以包括如下步骤：

步骤101：将多个训练样本图像输入第一图像处理模型；其中，所述第一图像处理模型包括维度转换层和输出层，所述训练样本图像包括多个原始文本框中每个原始文本框的顶点的初始坐标。

在本发明实施例中，训练样本图像是指用于训练图像处理模型的、且包含有文本信息的图像，例如，参照图2，示出了本发明实施例提供的一种包含文本信息的图像的示意图，如图2所示，图像中包含有“乱世祸妃”、“开源动漫”、“今生今世，我们永不再见！”等文本信息，则图2所示图像可以作为训练样本图像。

第一图像处理模型中的“第一”并未有特殊的含义，而是对图像处理模型的限定。在对图像处理模型进行训练的过程中，需要将预设数量的训练样本图像依次输入图像处理模型进行训练的过程，在训练过程中，首次将一张训练样本图像输入图像处理模型中进行训练时的图像处理模型为初始图像处理模型。而在后续将其它训练样本图像输入图像处理模型中进行训练时的图像处理模型即为第一图像处理模型。

在对第一图像处理模型进行训练的过程中，采用的训练样本图像的数量可以为500张、800张、1000张等等，具体地，可以是由研发人员根据实际情况确定的，本发明实施例对此不加以限制。

在每张训练样本图像均包含有多个原始文本框中每个原始文本框的顶点的初始坐标，即在训练样本图像中包含有多个文本时，可以获取各文本对应的文本框，即可以恰好包含该文本对应的文本框的各顶点的初始坐标，即四个顶点形成的框即为原始文本框。

第一图像处理模型的网络结构层中包含有维度转换层和输出层，较现有技术的改进点在于：本发明在输出层之前增加了维度转换层，从而可以在后续的文本检测过程中，对待处理图像对应的四维特征进行横向和竖向的维度合并，从而增加网络的感受视野，以提高文本检测的准确率。对于第一图像处理模型的网络结构层参照图3进行如下描述。

参照图3，示出了本发明实施例提供的一种图像处理模型结构的示意图，如图3所示，第一图像处理模型的网络结构层可以包括：特征提取器(Feature extractor)、特征合并分支层(Feature-merging branch)、维度转换层(reshape BLSTM)和输出层(Outputlayer)，其中，特征提取器可以是一个使用ImageNet数据集预训练的卷积层与池化层交替的卷积神经网络。

如图3所示，在Feature extractor层，7*7表示卷积核的尺寸，64表示通道数，即有64个这样的矩阵和输入至Feature extractor层的图像分别做运算，2表示每个矩阵每次移动两个像素点。然后，将输入的图像经过4个阶段的卷积层，可以得4张特征图像，分别为f₁、f₂、f₃、f₄，这四张特征图像相对于输入的图像分别缩小了1/32、1/16、1/8、1/4。

之后，在Feature-merging branch层，可以使用上采样、concat(串联)、卷积操作依次得到h₁、h₂、h₃、h₄，在对于h₄这个融合的特征图像后，使用大小为3*3、通道数为32的卷积核进行卷积运算，而对于h₁、h₂则是使用大小为3*3、通道数为128的卷积核进行卷积运算，对于h₃则是使用大小为3*3、通道数为64的矩阵进行卷积运算，最后得到与输入图像对应的四维特征，然后输入维度转换层。

而在维度转换层所采用的两个BLSTM(Bidirectional Long Short-Term Memory，双向长短时记忆)网络层，这两个网络层的num_units参数设置为16，即BLSTM输出结果的维度为16，也即最后输出的是一个16维的向量，由16维的向量共同组成了一个四维特征，即经过两个网络层的运算最后得到原图对应的一个四维特征，并将该四维特征输入到输出层。

在输出层中，使用一个大小为1*1、通道数为1的卷积核得到一张score map(分数图)，并使用一个大小为1*1、通道数为4的卷积核得到text boxes(正文框)，使用一个大小为1*1、通道数为1的卷积核得到text rotation angle(文本旋转角度)。对于上述过程仅为结合图3对本发明实施例提供的图像处理模型进行的简要描述，不作为对本发明实施例的唯一限制。

通过Feature extractor和Feature-merging branch对输入的训练样本图像经过特征提取及合并处理之后，可以转化成与训练样本图像对应的第一四维特征。

维度转换层可以对各训练样本图像对应的第一四维特征进行合并处理(通过reshape函数重新调整矩阵的行数、列数、维数)，然后通过BLSTM(Bidirectional LongShort-Term Memory，双向长短时记忆)网络层提取时间序列特征，得到对应的四维特征，并由BLSTM网络层输出该四维特征，通过时间序列特征的提取可以增加特征感受视野。

对于上述第一图像处理模型的网络结构层的具体过程将在下述步骤中进行详细描述。

在将多个训练样本图像输入第一图像处理模型之后，执行步骤102。

步骤102：调用所述维度转换层，对每个所述训练样本图像对应的第一四维特征进行维度合并处理，得到各所述训练样本图像对应的第二四维特征。

在使用多个训练样本图像对第一图像处理模型进行处理的过程中，是每次采用一张训练样本图像进行的训练，而在将一张训练样本图像输入第一图像处理模型之后，可以由第一图像处理模型中的Feature extractor和Feature-merging branch(如图3所示)对输入的训练样本图像经过特征提取及合并处理之后，可以转化成与训练样本图像对应的第一四维特征。

Feature-merging branch输出训练样本图像对应的第一四维特征至维度转换层，维度转换层可以对该训练样本图像对应的第一四维特征进行合并处理(通过reshape函数重新调整矩阵的行数、列数、维数)，然后通过BLSTM(Bidirectional Long Short-TermMemory，双向长短时记忆)网络层提取时间序列特征，得到对应的四维特征，并由BLSTM网络层输出该四维特征，通过时间序列特征的提取可以增加特征感受视野。具体地，以下述优选实施例进行详细描述。

在本发明实施例的一种优选实施例中，所述维度转换层包括第一双向长短时记忆网络层和第二双向长短时记忆网络层，上述步骤102可以包括：

子步骤A1：对所述第一四维特征的第一维的特征和第二维的特征进行合并处理，生成第一初始三维特征。

在本发明实施例中，维度转换层可以包括第一双向长短时记忆网络层和第二双向长短时记忆网络层，即第一BLSTM网络层和第二BLSTM网络层(如图3所示的两个BLSTM)。

第一四维特征可以是由一组四维向量组成的，如第一四维特征可以由(b，h，w，c)，其中，b表示第一四维特征的第一维的特征，h表示第一四维特征的第二维的特征，w表示第一四维特征的第三维的特征，c表示第一四维特征的第四维的特征。

可以理解地，上述示例仅是为了更好地理解本发明实施例的技术方案而列举的示例，不作为对本发明实施例的唯一限制。

第一初始三维特征是指对训练样本图像对应的第一四维特征的第一维的特征和第二维的特征进行合并之后得到的三维特征。

在获取到训练样本图像对应的第一四维特征之后，可以通过对第一四维特征的第一维的特征和第二维的特征进行合并处理，从而生成第一初始三维特征，例如，第一四维特征为：(b，h，w，c)，对第一维的特征和第二维的特征进行合并之后，得到的第一初始三维特征即为(b*h，w，c)。

通过上述过程即完成了对第一四维特征的竖向的reshape过程，即将竖向的第一维的特征和第二维的特征进行合并的过程，即如图3所示的第一个reshape函数对训练样本图像对应的第一四维特征进行维度合并的过程。

在生成第一初始三维特征之后，执行子步骤A2。

子步骤A2：调用所述第一双向长短时记忆网络层，提取并输出所述第一初始三维特征中的竖向的初始时间序列特征；所述竖向的初始时间序列特征为四维特征。

在对训练样本图像对应的第一四维特征进行竖向的reshape之后，可以将得到的第一初始三维特征输入到竖向的第一BLSTM网络层，在第一BLSTM网络层中可以提取第一初始三维特征中的竖向的初始时间序列特征，该竖向的初始时间序列特征即为四维特征。

通过竖向的第一BLSTM网络层提取竖向的初始时间序列特征，可以增加竖直方向上的感受视野，从而可以增加图像中文本检测的精度。

在提取并输出第一初始三维特征中的竖向的初始时间序列特征之后，执行子步骤A3。

子步骤A3：对所述竖向的初始时间序列的第一维的特征和第三维的特征进行合并处理，生成第二初始三维特征。

竖向的初始时间序列特征为四维特征。

第二初始三维特征是指对竖向的初始时间序列特征进行特征合并之后得到的三维特征。

在得到竖向的初始时间序列特征之后，可以对竖向的初始时间序列特征的第一维的特征和第三维的特征进行合并处理，从而得到第二初始三维特征，例如，竖向的初始时间序列特征为(h1，h2，h3，h4)，竖向的初始时间序列特征的第一维的特征为h1，第三维的特征为h3，对第一维的特征和第三维的特征进行合并处理得到的第二初始三维特征即为(h1*h3，h2，h4)。

通过上述过程即完成了对竖向的初始时间序列特征横向的reshape过程，即将竖向的初始时间序列特征中的第一维的特征和第三维的特征进行合并的过程，即如图3所示的第二个reshape函数对竖向的初始时间序列特征进行维度合并的过程。

在生成第二初始三维特征之后，执行子步骤A4。

子步骤A4：调用所述第二双向长短时记忆网络层，提取并输出所述第二初始三维特征中的横向的初始时间序列特征，将所述横向的初始时间序列特征作为所述第二四维特征。

在对竖向的初始时间序列特征进行横向的reshape之后，可以将得到的第二初始三维特征输入到横向的第一BLSTM网络层，在第二BLSTM网络层中可以提取第二初始三维特征中的横向的初始时间序列特征，该横向的初始时间序列特征即为四维特征，也即维度转换层最终得到的第二四维特征。

通过横向的第二BLSTM网络层提取横向的初始时间序列特征，可以增加水平方向上的感受视野，从而可以增加图像中文本检测的精度。

在调用维度转换层，对每个训练样本图像对应的第一四维特征进行维度合并处理，得到各训练样本图像对应的第二四维特征之后，执行步骤103、

步骤103：调用所述输出层，对所述第二四维特征进行卷积运算，生成与每个所述训练样本图像对应的预测图像；所述预测图像包含多个检测文本框中每个检测文本框的顶点的预测坐标。

预测图像是指对训练样本图像对应的第二四维特征进行卷积运算之后得到的图像，预测图像可以包括分数图、检测坐标图和旋转角度图。在得到第二四维特征之后，可以将第二四维特征输入至输出层，在输出层中包含有几个conv算法子，可以对第二四维特征进行卷积运算，从而得到包含文本框的多个四边形形成的框组成的文本框(各文本框即包含了四个顶点的坐标值)、各文本框对应的分数值以及各文本框的旋转角度，并将各文本框、各文本框对应的分数值及各文本框的旋转角度映射到相应的图像中，从而得到检测坐标图、分数图和旋转角度图，共同组成了预测图像。

检测文本框是指通过第一图像处理模型对训练样本图像进行运算之后得到的预测图像中的文本框。在本发明中，检测文本框可以是由四个顶点坐标而形成的框结构。

在预测图像中包含有多个检测文本框中每个检测文本框的顶点的预测坐标。

在生成与每个训练样本图像对应的预测图像之后，执行步骤104。

步骤104：基于各所述初始坐标以及各所述预测坐标，获取所述第一图像处理模型的损失值。

在每个训练样本图像中预先包含有多个原始文本框中每个原始文本框的顶点的初始坐标。该损失值可以表示训练样本图像的各预测坐标与各初始坐标的偏差程度，例如，在一张训练样本图像中包含一个原始文本框，该原始文本框的四个顶点的初始坐标分别为：(0，0)、(0，1)、(1，0)、(1，1)，而经过第一图像处理模型对该张训练样本图像进行处理之后得到的预测图像中，包含有一个检测文本框，该检测文本框的四个顶点的预测坐标分别为：(0，0)、(0，1.1)、(1.1，0)、(1.1，1.1)，进而可以基于上述四个顶点的初始坐标和上述四个顶点的预测坐标可以计算到检测文本框与原始文本框的偏差程度，即计算得到最终的损失值。

可以理解地，上述示例仅是为了更好地理解本发明实施例的技术方案而列举的示例，不作为对本发明实施例的唯一限制。在得到损失值之后，执行步骤105。

步骤105：在所述损失值处于预设范围内的情况下，将所述第一图像处理模型作为目标图像处理模型。

本发明实施例中，预设范围可以根据实际应用场景和实际需求由研发人员预先设定，本发明实施例对于预设范围的具体数值不加以限制。

而如果损失值在预设范围内时，则可以认为每个预测图像中多个检测文本框中每个检测文本框的顶点的预测坐标，与对应的每个训练样本图像中每个原始文本框中每个原始文本框的顶点的初始坐标的偏差非常小，此时，可以认为该第一图像处理模型能够准确的检测出图像中的文本信息，相应的，可以将该第一图像处理模型作为目标图像处理模型，目标图像处理模型即可以进行后续的图像中文本检测。

而如果损失值在预设范围外时，则可以认为每个预测图像中多个检测文本框中每个检测文本框的顶点的预测坐标，与对应的每个训练样本图像中每个原始文本框中每个原始文本框的顶点的初始坐标的偏差较大，此时，可以增加训练样本图像的数量，继续对第一图像处理模型进行训练，以使得最终得到的损失值在预设范围内。

本发明实施例提供的图像处理模型生成方法，通过将多个训练样本图像输入第一图像处理模型，第一图像处理模型包括维度转换层和输出层，训练样本图像包括多个原始文本框中每个原始文本框的顶点的初始坐标，调用维度转换层对每个训练样本图像对应的第一四维特征进行维度合并处理，得到各训练样本图像对应的第二四维特征，调用输出层对第二四维特征进行卷积运算，生成与每个训练样本图像对应的预测图像，预测图像包含多个检测文本框中每个检测文本框的顶点的预测坐标，基于各初始坐标及各预测坐标，获取第一图像处理模型的损失值，并在损失值处于预设范围的情况下，将第一图像处理模型作为目标图像处理模型。本发明实施例通过调用维度转换层对每个训练样本图像对应的四维特征进行维度合并处理，并进行后续过程生成目标图像处理模型，从而可以在后续使用该目标图像处理模型对待处理图像进行文本检测时，可以通过维度转换层对待处理图像对应的四维特征进行横向和竖向的维度的特征进行合并及提取，可以增加在检测图像中文本时网络的感受视野，从而提高文本检测的准确率。

参照图4，示出了本发明实施例提供的一种图像处理方法的步骤流程图，具体可以包括如下步骤：

步骤201：将第一待处理图像输入预先训练好的目标图像处理模型；其中，所述目标图像处理模型包括维度转换层和输出层。

在本发明实施例中，第一待处理图像是指待检测的包含有文本信息的图像，例如，如图2所示，图像中包含有“乱世祸妃”、“开源动漫”、“今生今世，我们永不再见！”目标图像处理模型的网络结构层中包含有维度转换层和输出层，较现有技术的改进点在于：本发明在输出层之前增加了维度转换层，从而可以在后续的文本检测过程中，对待处理图像对应的四维特征进行横向和竖向的维度合并，从而增加网络的感受视野，以提高文本检测的准确率。对于目标图像处理模型的网络结构层参照图3进行如下描述。

如图3所示，目标图像处理模型的网络结构可以包括：特征提取器(Featureextractor)、特征合并分支层(Feature-merging branch)、维度转换层(reshape BLSTM)和输出层(Output layer)，其中，特征提取器可以是一个使用ImageNet数据集预训练的卷积层与池化层交替的卷积神经网络。

对于上述各网络结构层的具体实现过程将在下述步骤中进行详细描述，本发明实施例在此不再加以赘述。

在获取第一待处理图像之后，可以将第一待处理图像输入预先训练好的目标图像处理模型，并执行步骤202。

步骤202：调用所述维度转换层，对所述第一待处理图像对应的第一四维特征进行维度合并处理，得到第二四维特征。

在获取第一待处理图像之后，可以将第一待处理图像输入特征提取器(Featureextractor)和特征合并分支(Feature-merging branch)，特征提取器可以是一个使用ImageNet数据集预训练的卷积层与池化层交替的卷积神经网络。

通过Feature extractor和Feature-merging branch对输入的第一待处理图像经过特征提取及合并处理之后，可以转化成与第一待处理图像对应的第一四维特征，然后对第一四维特征进行合并处理，从而可以得到第二四维特征。

本发明实施例中，可以在特征合并分支与输出层之间添加BLSTM网络层(如图3所示的两个BLSTM)，首先，可以对第一四维特征合并处理(即通过reshape函数重新调整矩阵的行数、列数、维数)，生成对应的三维特征，然后通过BLSTM网络层提取时间序列特征，得到对应的四维特征，并由BLSTM网络层输出该四维特征，通过时间序列特征的提取可以增加特征感受视野。

而对于第一四维特征的合并处理可以通过横向和竖向双向的处理方式，具体地，可以参照下述优选实施例进行详细描述。

在本发明实施例的一种优选实施例中，所述维度转换层包括第一双向长短时记忆网络层和第二双向长短时记忆网络层，上述步骤202可以包括：

子步骤B1：对所述第一四维特征的第一维的特征和第二维的特征进行合并处理，生成第一三维特征。

第一三维特征是指对第一待处理图像对应的第一四维特征的第一维的特征和第二维的特征进行合并之后得到的三维特征。

在获取到第一待处理图像对应的第一四维特征之后，可以通过对第一四维特征的第一维的特征和第二维的特征进行合并处理，从而生成第一三维特征，例如，第一四维特征为：(b，h，w，c)，对第一维的特征b和第二维的特征h进行合并之后，得到的第一三维特征即为(b*h，w，c)。

即通过上述过程即完成了对第一四维特征的竖向的reshape过程，即将竖向的第一维的特征和第二维的特征进行合并的过程。

在生成第一三维特征之后，执行子步骤B2。

子步骤B2：调用所述第一双向长短时记忆网络层，提取并输出所述第一三维特征中的竖向的时间序列特征；所述竖向的时间序列特征为四维特征。

第一BLSTM网络层即为竖向的BLSTM网络层，即提取第一三维特征中竖向的时间序列特征的网络层。

在对第一四维特征进行竖向的reshape之后，可以将得到的第一三维特征输入到第一BLSTM网络层，在第一BLSTM网络层中可以提取第一三维特征中的竖向的时间序列特征，该竖向的时间序列特征即为四维特征。

通过第一BLSTM网络层提取竖向的时间序列特征，可以在后续文本检测过程中，增加竖直方向上的感受视野，从而可以增加待处理图像中文本检测的精度。

在调用第一BLSTM网络层在提取出竖向的时间序列特征之后，可以输出竖向的时间序列特征，并执行子步骤B3。

子步骤B3：对所述竖向的时间序列特征的第一维的特征和第三维的特征进行合并处理，生成第二三维特征。

竖向的时间序列特征为四维特征。

第二三维特征是指对竖向的时间序列特征进行特征合并之后得到的三维特征。

在得到竖向的时间序列特征之后，可以对竖向的时间序列特征的第一维的特征和第三维的特征进行合并处理，从而得到第二三维特征，例如，竖向的时间序列特征为(h1，h2，h3，h4)，竖向的时间序列特征的第一维的特征为h1，第三维的特征为h3，对第一维的特征和第三维的特征进行合并处理得到的第二三维特征即为(h1*h3，h2，h4)。

在对竖向的时间序列特征的第一维的特征和第三维的特征进行合并处理，生成第二三维特征之后，执行子步骤B4。

子步骤B4：调用所述第二双向长短时记忆网络层，提取并输出所述第二三维特征中的横向的时间序列特征，将所述横向的时间序列特征作为所述第二四维特征。

第二BLSTM网络层即为横向的BLSTM网络层，即提取第二三维特征中横向的时间序列特征的网络层。

在得到第二三维特征之后，可以将第二三维特征输入到第二BLSTM网络层，通过第二BLSTM网络层提取第二三维特征中的横向的时间序列特征，该横向的时间序列特征也为四维特征，并将提取的横向的时间序列特征作为第二四维特征，即完成了第二四维特征的提取过程。

在对第一待处理图像对应的第一四维特征进行维度合并处理，得到第二四维特征之后，可以由第二BLSTM网络层输出该第二四维特征，执行步骤203。

步骤203：调用所述输出层，对所述第二四维特征进行卷积运算，生成第二待处理图像；其中，所述第二待处理图像包含多个文本框对应顶点的坐标值。

第二待处理图像是指对第一待处理图像对应的第二四维特征进行卷积运算之后得到的图像，第二待处理图像可以包括分数图、检测坐标图和旋转角度图。例如，参照图5，示出了本发明实施例提供的一种原图及图像处理结果图的示意图，如图5所示，左侧第一幅图为原图，即本发明提及的第一待处理图像，在原图中包含有三段文本信息；右侧第一幅图为第一待处理图像进行目标图像处理模型处理之后输出的检测坐标图(旋转角度图在本发明实施例中并未应用到，在此图中并未示出)，在检测坐标图中所示的3个条形框分别是与原图中的3段文本相对应，即为3段文本添加的文本框，在检测坐标图中包含了3个恰好可以包含3段文本信息的框的顶点的坐标；中间一幅图为第一待处理图像进行目标图像处理模型处理之后输出的分数图，如在分数图中所示仅为3个条形框，分别对应于检测坐标图中的3个条形框，而在分数图中不同的条形框对应有相应的分数值，即各条形框对应的分数值(图中未示出)，分数值可以反应出第二待处理图像中每个文本框的准确度，分数值越高表示得到的文本框的准确度越高，分数值越低表示得到的文本框的准确度越低。

在得到第二四维特征之后，可以将第二四维特征输入至输出层，在输出层中包含有几个conv算法子，可以对第二四维特征进行卷积运算，从而得到包含文本框的多个四边形形成的框组成的文本框(即四个顶点的坐标值所形成的框)、各文本框对应的分数值以及各文本框的旋转角度，并将各文本框、各文本框对应的分数值及各文本框的旋转角度映射到相应的图像中，从而得到检测坐标图、分数图和旋转角度图，共同组成了第二待处理图像。

而对于调用输出层，对第二四维特征进行卷积运算，生成第二待处理图像的过程可以以下述优选实施例进行详细描述。

在本发明实施例的一种优选实施例中，上述步骤203可以包括：

子步骤C1：调用所述输出层，检测出所述第二四维特征中的多个文本特征。

在本发明实施例中，在获取第二四维特征之后，可以利用预先训练好的目标图像处理模型中的输出层对第二四维特征进行卷积运算，具体地，可以将第二四维特征输入输出层，并由输出层检测第二四维特征中的多个文本特征。

在检测出第二四维特征中的多个文本特征之后，执行子步骤C2。

子步骤C2：获取所述多个文本特征中处于同一行中不间断的第一文本特征，及同一行中间断的多个第二文本特征。

而在检测出第二待处理图像中的多个文本特征之后，可以获取多个文本特征中处于同一行中不间断的第一文本特征，例如，如图2所示，“兵临城下，他弃她而去，她成了俘虏，北朝的王爷，却对她一见”为同一行中不间断的文本，即为第一文本特征。而在同一行中出现的间断的文本即为第二文本特征，例如，如图2所示，“+订阅更新”、“开始阅读”处于同一行中，且两个文本中具有间隔，则“+订阅更新”、“开始阅读”即为第二文本特征。

在跟以前有第一个文本特征中处于同一行中不间断的第一文本特征，及同一行中间断的多个第二文本特征之后，执行子步骤C3。

子步骤C3：生成包含所述第一文本特征和各所述第二文本特征的最小的文本框，得到添加有文本框的三维特征。

在获取第二四维特征中的第一文本特征和各第二文本特征之后，可以对第一文本特征添加一个文本框，即可以恰好可以包含第一文本特征的四个顶点所组成的最小的框，即为最小的文本框，即将同一行中不间断的文本特征用一个文本框框住。而对于第二文本特征，则需要添加的相应的最小的文本框，例如，在同一行中出现了两个间断的文本，即同一行中有两个第二文本特征，则需要为两个第二文本特征分别添加文本框，以分别框住两个第二文本特征。而由于添加的文本框为一四边形的方形框，可以获取到能够覆盖住第一文本特征和第二文本特征的最小方形区域的四个顶点的坐标值，在本发明中，可以将获取各顶点的坐标值的过程视为添加文本框的过程。

在生辰更包含第一文本特征和各第二文本特征的最小的文本框之后，可以得到添加有文本框的三维特征，进而执行子步骤C4。

子步骤C4：输出所述添加有文本框的三维特征，得到所述第二目标图像。

在本发明实施例中，添加有文本框的三维特征可以为各文本框的顶点的坐标值特征、各文本框的分数值特征及各文本框的旋转角度特征。

在得到添加有文本框的三维特征之后，可以将各文本框的顶点的坐标值特征、各文本框的分数值特征及各文本框的旋转角度特征分别映射到检测坐标图、分数图和旋转角度图之上，从而共同组成了第二待处理图像。

可以理解地，上述优选实施例仅是为了更好地理解本发明实施例的技术方案而提出的一种获取第二待处理标图像的方式，在具体实现中，本领域技术人员还可以采用其它方式获取第二待处理图像，本发明实施例对此不加以限制。

在调用输出层，对第二四维特征进行卷积运算，生成第二待处理图像之后，执行步骤204。

步骤204：依据各所述文本框对应顶点的坐标值，对各所述文本框中的至少两个所述文本框进行合并处理，生成至少一个目标文本框。

目标文本框是指依据文本框对应顶点的坐标值进行合并之后，所形成的最终的文本框。

对于第二待处理图像中各文本框的合并并非是将第二待处理图像中的所有文本框进行一体的合并，而是根据各文本框对应顶点的坐标值，将距离较近的文本框进行合并，而对于两个距离较远的文本框不再进行合并处理过程。

在获取各文本框在第二待处理图像中各文本框对应顶点的坐标值之后，可以根据各文本框对应顶点的坐标值，对各文本框中的至少两个文本进行合并处理，例如，对于上述示例中所指出的多行文本组成的长文本，添加有多个文本框，在获取文本框的顶点坐标值，若左右两个文本框的间隔距离较近，表示两个文本框所组成的文本可能为一个长文本，则将两个文本框进行合并，从而形成一个文本框，进而将合并形成的文本框对应顶点的坐标值与其它文本框对应顶点的坐标值进行各文本框之间距离的判断，以进行后续的合并处理过程，以此类推，直至对第二待处理图像中的所有文本框处理完成，形成最终的一个或多个目标文本框。

而对于合并的过程，在获取各文本框在第二待处理图像中各文本框对应顶点的坐标值之后，可以计算出两个合并文本框的各顶点的坐标，进而获取各顶点坐标中的最小横坐标、最小纵坐标、最大横坐标和最大纵坐标，进而依据最小横坐标、最小纵坐标、最大横坐标和最大纵坐标形成一个合并的文本框，从而完成两个文本框的合并处理过程。

而在对第二待处理图像中的各文本框进行合并时，可以检测各文本框的有效性，例如，有些文本框中所包含的并非文本，而是被误认为是文本，则可以在合并时，将这些文本框忽略，不做处理。具体地，可以以下述优选实施例对合并过程进行如下详细描述。

在本发明实施例的一种优选实施例中，上述步骤204可以包括：

子步骤D1：获取各所述文本框中的各有效文本框；

子步骤D2：依据各所述有效文本框对应顶点的坐标值，获取各所述有效文本框中相邻的两个有效文本框；

子步骤D3：对所述相邻的两个有效文本框进行合并处理，生成所述目标文本框。

在本发明实施例中，有效文本框是指第二待处理图像中文本框中包含有文本特征的文本框。

在对第二待处理图像进行文本检测，并添加相应的文本框之后，可能在检测过程中，出现检测错误，导致文本框中所包含并非文本信息，例如，参照图6，示出了本发明实施例提供的一种文本框的示意图，如图6所示，在添加文本框之后，文本框中并非包含文本信息，而是在经过图像处理模型运算之后，将图中所示的如“鸟”、“话筒”、“飞机”等误检测为文本信息对应的框，如图所示，IoU(Intersection-over-Union，交并比)是应用于目标检测中的一个概念，是产生的候选框与原标记框的交叠率。即它们的交集与并集的比值，理想状态下，二者完全重叠比值为1；“Cls Conf”表示分类置信度；“Loc Conf”表示定位置信度，当然，可以结合文本框对应的分类置信度和定位置信度，确定文本框的检测有效性，例如，如图6左侧第一幅图所示，IoU：0.60，Cls Conf：0.785，Loc Conf：0.627，可以将三个数值相乘，并与设定阈值进行比较，在三个数值的乘积小于设定阈值时，表示对应的文本框即为无效的文本框。

可以理解地，上述示例仅是为了更好地理解本发明实施例的方案而列举的示例，不作为对本发明实施例的唯一限制。

在本发明实施例中，在为第二待处理标图像中的各文本添加相应的文本框之后，可以依据分数图获取各文本框的分数值，将分数值低于设定阈值的文本框视为无效文本框，并将分数值高于等于设定阈值的文本框视为有效文本框。

通过上述方式可以获取第二待处理图像中的各文本框中的有效文本框和无效文本框。

相邻的文本框是指左右位置较近的有效文本框，例如，两个文本框间隔10mm，或8mm等等。

而在获取有效文本框之后，可以依据各有效文本框对应顶点的坐标值，获取相邻的两个有效文本框。在本发明中，可以预先设置一个间隔阈值，如1cm、2cm等，具体地，可以根据实际情况而定，本发明实施例对此不加以限制。

在获取有效文本框之后，可以计算有效文本框中间隔距离小于等于间隔阈值的有效文本框，在存在间隔距离小于等于间隔阈值的有效文本框时，则将间隔距离小于等于间隔阈值的两个有效文本框作为相邻的有效文本框。

在获取相邻的有效文本框之后，则可以对相邻的两个有效文本框进行合并处理，从而得到目标文本框。

当然，对于合并处理的过程将以下述优选实施例进行详细描述。

在本发明实施例的另一种优选实施例中，上述子步骤D3可以包括：

子步骤E1：依据所述相邻的两个有效文本框的各顶点分别对应的坐标，获取最大横坐标、最小横坐标、最大纵坐标和最小纵坐标；

子步骤E2：依据所述最大横坐标、所述最小横坐标、所述最大纵坐标和所述最小纵坐标，生成第一目标文本框。

在本发明实施例中，而在获取相邻的两个有效文本框之后，可以获取两个有效文本框对应的各顶点的坐标，并从各顶点坐标中获取最大横坐标、最小横坐标、最大纵坐标和最小纵坐标，进而，依据最大横坐标、最小横坐标、最大纵坐标和最小纵坐标可以生成目标文本框，例如，两个有效文本框为A和B，文本框A的四个顶点坐标分别为(0，0)、(0，2)、(2，0)、(2，2)，文本框B的四个顶点的坐标分别为(4，0)、(3，0)、(3，2)、(4，2)，则最大横坐标为4，最小横坐标为0，最大纵坐标为2，最小纵坐标为0，则形成的目标文本框的四个顶点坐标即为(0，0)、(0，2)、(4，0)、(4，2)。

在生成第一目标文本框之后，执行子步骤E3。

子步骤E3：获取所述相邻的两个有效文本框分别对应的分数值。

在为第二待处理图像中的各文本添加相应的文本框之后，可以依据分数图获取相邻的两个有效文本框分别对应的分数值，进而执行子步骤E4。

子步骤E4：对所述相邻的两个有效文本框和所述分数值进行加权平均处理，生成第二目标文本框。

在获取相邻的两个有效文本框分别对应的分数值之后，可以对相邻的有效文本框及相邻的有效文本框分别对应的分数值进行加权平均处理，从而可以生成第二目标文本框。

而加权平均处理的过程可以是根据相邻的两个有效文本框的各顶点坐标及相邻的有效文本框分别对应的分数值按照下述方式进行：

def weighted_merge(g，p)：

#g＝[x1，y1，x2，y2，x3，y3，x4，y4，k]，k为分数

q[：8]＝(g[8]*g[：8]+p[8]*p[：8])/(g[8]+p[8])

q[8]＝g[8]+p[8])

return q

上述函数中，q[：8]表示加权平均处理生成的第二目标文本框对应的坐标，q[8]表示第二目标文本框对应的分数值，g[8]表示相邻的两个有效文本框中的第一个有效文本框对应的分数值，g[：8]表示第一个有效文本框的坐标，p[8]表示相邻的两个有效文本框中的第二个有效文本框对应的分数值，p[：8]表示第二个有效文本框的坐标。

通过上述加权平均处理之后，可以得到四个点的坐标值，以该四个点的坐标值可以形成第二目标文本框。

在生成第二目标文本框之后，执行子步骤E5。

子步骤E5：获取所述第一目标文本框和所述第二目标文本框分别对应的第一目标分数值和第二目标分数值。

第一目标分数值是指第一目标文本框对应的分数值，第二目标分数值是指第二目标文本框对应的分数值。

通过上述子步骤E4中可以得到第二目标文本框对应的分数值，即第二目标分数值。

第一目标分数值的获取可以根据相邻的两个有效文本框对应的分数值计算得到，具体地，可以将两个相邻的有效文本框对应的分数值相加，然后求平均值，从而得到第一目标分数值，例如，相邻的两个有效文本框对应的分数值分别为6和8，则第一目标分数值＝(6+8)/2＝7。

在获取第一目标分数值和第二目标分数值之后，执行子步骤E6。

子步骤E6：对所述第一目标文本框、所述第二目标文本框、所述第一目标分数值和所述第二目标分数值进行加权平均处理，生成所述目标文本框。

在得到第一目标文本框、第二目标文本框、第一目标分数值和第二目标分数值之后，可以对第一目标文本框、第二目标文本框、第一目标分数值和第二目标分数值进行加权平均处理，从而生成目标文本框。

而此处加权平均处理的过程是与上述子步骤E3中所描述的加权平均处理过程类似，本发明实施例在此不再加以赘述。

在依据各文本框的位置信息，对各文本框中的至少两个文本框进行合并处理，生成至少一个目标文本框之后，执行步骤205。

步骤205：输出所述至少一个目标文本框。

在获取至少一个目标文本框之后，可以对各目标文本框进行排序，进而输出排序后的目标文本框，以展示相应的文本。

而对于排序过程，可以根据各目标文本框在第二目标图像中的位置，按照从左到右、从上到下的顺序依次对各目标文本框进行排序，从而得到排序后的目标文本框，进而，将排序后的目标文本框输出展示。

本发明实施例提供的图像处理方法，通过将第一待处理图像输入预先训练好的目标图像处理模型，其中，目标图像处理模型包括维度输出层和输出层，调用维度转换层，对第一待处理图像对应的第一四维特征进行维度合并处理，得到第二四维特征，调用输出层，对第二四维特征进行卷积运算，生成第二待处理图像，第二待处理图像包含多个文本框对应顶点的坐标值，依据各文本框对应顶点的坐标值，对各文本框中的至少两个文本框进行合并处理，生成并输出至少一个目标文本框。本发明实施例通过对待处理图像对应的四维特征进行合并处理的过程，即通过对待处理图像不同维度的特征进行合并，并提取相应的时间序列特征，从而可以增加网络在不同方向上的感受视野，从而可以提高文本检测的准确率，并且，通过对文本框进行合并，避免了长文本被文本框隔开，进而可以有效检测出目标图像中的长文本，可以提高对目标图像中的长文本的检测准确率。

参照图7，示出了本发明实施例提供的一种图像处理方法的步骤流程图，具体可以包括如下步骤：

步骤301：将第一待处理图像输入预先训练好的目标图像处理模型；其中，所述目标图像处理模型包括维度转换层和输出层。

在本发明实施例中，第一待处理图像是指待检测的包含有文本信息的图像，例如，如图2所示，图像中包含有“乱世祸妃”、“开源动漫”、“今生今世，我们永不再见！”等文本信息，则图2所示图像可以作为第一待处理图像。

目标图像处理模型的网络结构层中包含有维度转换层和输出层，较现有技术的改进点在于：本发明在输出层之前增加了维度转换层，从而可以在后续的文本检测过程中，对待处理图像对应的四维特征进行横向和竖向的维度合并，从而增加网络的感受视野，以提高文本检测的准确率。对于目标图像处理模型的网络结构层参照图3进行如下描述。

在获取第一待处理图像之后，可以将第一待处理图像输入预先训练好的目标图像处理模型，并执行步骤302。

步骤302：调用所述维度转换层，对所述第一待处理图像对应的第一四维特征进行维度合并处理，得到第二四维特征。

在本发明实施例的一种优选实施例中，所述维度转换层包括第一双向长短时记忆网络层和第二双向长短时记忆网络层，上述步骤302可以包括：

子步骤F1：对所述第一四维特征的第一维的特征和第二维的特征进行合并处理，生成第一三维特征。

在生成第一三维特征之后，执行子步骤F2。

子步骤F2：调用所述第一双向长短时记忆网络层，提取并输出所述第一三维特征中的竖向的时间序列特征；所述竖向的时间序列特征为四维特征。

在调用第一BLSTM网络层在提取出竖向的时间序列特征之后，可以输出竖向的时间序列特征，并执行子步骤F3。

子步骤F3：对所述竖向的时间序列特征的第一维的特征和第三维的特征进行合并处理，生成第二三维特征。

竖向的时间序列特征为四维特征。

在对竖向的时间序列特征的第一维的特征和第三维的特征进行合并处理，生成第二三维特征之后，执行子步骤F4。

子步骤F4：调用所述第二双向长短时记忆网络层，提取并输出所述第二三维特征中的横向的时间序列特征，将所述横向的时间序列特征作为所述第二四维特征。

在对第一待处理图像对应的第一四维特征进行维度合并处理，得到第二四维特征之后，可以由第二BLSTM网络层输出该第二四维特征，执行步骤303。

步骤303：调用所述输出层，对所述第二四维特征进行卷积运算，生成第二待处理图像；其中，所述第二待处理图像包含多个文本框对应顶点的坐标值。

第二待处理图像是指对第一待处理图像对应的第二四维特征进行卷积运算之后得到的图像，第二待处理图像可以包括分数图、检测坐标图和旋转角度图。例如，参照图5，示出了本发明实施例提供的一种原图及图像处理结果图的示意图，如图5所示，左侧第一幅图为原图，即本发明提及的第一待处理图像，在原图中包含有三段文本信息；右侧第一幅图为第一待处理图像进行目标图像处理模型处理之后输出的检测坐标图(旋转角度图在本发明实施例中并未应用到，在此图中并未示出)，在检测坐标图中所示的3个条形框分别是与原图中的3段文本相对应，即为3段文本添加的文本框，检测坐标图中包含了3个恰好可以包含3段文本信息的框的顶点的坐标；中间一幅图为第一待处理图像进行目标图像处理模型处理之后输出的分数图，如在分数图中所示仅为3个条形框，分别对应于检测坐标图中的3各条形框，而在分数图中不同的条形框对应有相应的分数值，即各条形框对应的分数值(图中未示出)，分数值可以反应出第二待处理图像中每个文本框的准确度，分数值越高表示得到的文本框的准确度越高，分数值越低表示得到的文本框的准确度越低。

在本发明实施例的一种优选实施例中，上述步骤303可以包括：

子步骤G1：调用所述输出层，检测出所述第二四维特征中的多个文本特征。

在检测出第二四维特征中的多个文本特征之后，执行子步骤G2。

子步骤G2：获取所述多个文本特征中处于同一行中不间断的第一文本特征，及同一行中间断的多个第二文本特征。

在跟以前有第一个文本特征中处于同一行中不间断的第一文本特征，及同一行中间断的多个第二文本特征之后，执行子步骤G3。

子步骤G3：生成包含所述第一文本特征和各所述第二文本特征的最小的文本框，得到添加有文本框的三维特征。

在生辰更包含第一文本特征和各第二文本特征的最小的文本框之后，可以得到添加有文本框的三维特征，进而执行子步骤G4。

子步骤G4：输出所述添加有文本框的三维特征，得到所述第二目标图像。

在调用输出层，对第二四维特征进行卷积运算，生成第二待处理图像之后，执行步骤304。

步骤304：依据各所述文本框对应顶点的坐标值，对各所述文本框中的至少两个所述文本框进行合并处理，生成至少一个目标文本框。

在本发明实施例的一种优选实施例中，上述步骤304可以包括：

子步骤H1：获取各所述文本框中的各有效文本框；

子步骤H2：依据各所述有效文本框对应顶点的坐标值，获取各所述有效文本框中相邻的两个有效文本框；

子步骤H3：对所述相邻的两个有效文本框进行合并处理，生成所述目标文本框。

在对第二待处理图像进行文本检测，并添加相应的文本框之后，可能在检测过程中，出现检测错误，导致文本框中所包含并非文本信息，例如，参照图6，示出了本发明实施例提供的一种文本框的示意图，如图6所示，在添加文本框之后，文本框中并非包含文本信息，而是在经过图像处理模型运算之后，将图中所示的如“鸟”、“话筒”、“飞机”等误检测为文本信息对应的框，这些文本框即为无效的文本框。

在本发明实施例的另一种优选实施例中，上述子步骤H3可以包括：

子步骤I1：依据所述相邻的两个有效文本框的各顶点分别对应的坐标，获取最大横坐标、最小横坐标、最大纵坐标和最小纵坐标；

子步骤I2：依据所述最大横坐标、所述最小横坐标、所述最大纵坐标和所述最小纵坐标，生成第一目标文本框。

在生成第一目标文本框之后，执行子步骤I3。

子步骤I3：获取所述相邻的两个有效文本框分别对应的分数值。

在为第二待处理图像中的各文本添加相应的文本框之后，可以依据分数图获取相邻的两个有效文本框分别对应的分数值，进而执行子步骤I4。

子步骤I4：对所述相邻的两个有效文本框和所述分数值进行加权平均处理，生成第二目标文本框。

def weighted_merge(g，p)：

#g＝[x1，y1，x2，y2，x3，y3，x4，y4，k]，k为分数

q[：8]＝(g[8]*g[：8]+p[8]*p[：8])/(g[8]+p[8])

q[8]＝g[8]+p[8])

return q

在生成第二目标文本框之后，执行子步骤I5。

子步骤I5：获取所述第一目标文本框和所述第二目标文本框分别对应的第一目标分数值和第二目标分数值。

通过上述子步骤I4中可以得到第二目标文本框对应的分数值，即第二目标分数值。

在获取第一目标分数值和第二目标分数值之后，执行子步骤I6。

子步骤I6：对所述第一目标文本框、所述第二目标文本框、所述第一目标分数值和所述第二目标分数值进行加权平均处理，生成所述目标文本框。

而此处加权平均处理的过程是与上述子步骤I3中所描述的加权平均处理过程类似，本发明实施例在此不再加以赘述。

在依据各文本框的位置信息，对各文本框中的至少两个文本框进行合并处理，生成至少一个目标文本框之后，执行步骤305。

步骤305：从各所述目标文本框中，获取位于所述第二待处理图像的预设区域内至少一个目标有效文本框。

在本发明实施例中，在对相邻的两个有效文本框进行合并，生成目标文本框之后，可以根据目标文本框对应的分数值来判断目标文本框中是否包含有文本信息。并可以预先设置一个目标文本框对应的分数阈值，在目标文本框的打分分值高于分数阈值的情况下，表示该目标文本框为目标有效文本框，而在目标文本框的打分分值等于或低于分数阈值的情况下，表示该目标文本框为无效目标文本框。

通过上述方式可以获取第二待处理图像中的各目标文本框中的有效目标文本框和无效目标文本框。

本发明实施例中通过对文本框进行二次检测方案，可以提高最终获取的文本框中包含文本的精度，可以提高图像中文本检测的准确率。

在从各目标文本框中，获取位于第二待处理图像的预设区域内至少一个目标有效文本框之后，执行步骤306。

步骤306：依据各所述目标有效文本框对应顶点的坐标值，计算各所述目标有效文本框的高度值。

在获取至少一个目标有效文本框之后，可以依据各目标有效文本框对应顶点的坐标值，计算各目标有效文本框的高度值。

在本发明中，可以根据目标有效文本框的各顶点的坐标，计算得到目标有效文本框的高度值，例如，某目标有效文本框的各顶点的坐标分别为：(0，0)、(0，2)、(2，0)、(2，2)时，则该目标有效文本框的高度值即为2。

在依据各目标有效文本框对应顶点的坐标值，计算各目标有效文本框的高度值之后，执行步骤307。

步骤307：依据各所述高度值，计算得到平均高度值。

在计算得到各目标有效文本框的高度值之后，可以依据多个高度值计算得到平均高度值，例如，有三个目标有效文本框，对应的高度值分别为3cm、2cm和1cm，则平均高度值即为(1+2+3)/3(cm)＝2cm。

在依据各高度值计算得到平均高度值之后，执行步骤308。

步骤308：计算相邻两个所述目标有效文本框之间的间隔距离。

间隔距离是指两个目标有效文本框的左右间隔距离。

在获取至少一个目标有效文本框之后，可以依据各目标有效文本框的位置信息(即各目标有效文本框的顶点坐标)计算相邻两个目标有效文本框之间的间隔距离。例如，两个目标有效文本框为C和D，文本框C的四个顶点坐标分别为(0，0)、(0，2)、(2，0)、(2，2)，文本框D的四个顶点的坐标分别为(3，0)、(4，0)、(3，2)、(4，2)，单位为cm，则文本框C和文本框D的间隔距离即为1cm。

在计算出相邻两个目标有效文本框之间的间隔距离之后，执行步骤309。

步骤309：在所述间隔距离小于所述平均高度值的情况下，合并相邻两个所述目标有效文本框。

在获取相邻两个目标有效文本框之间的间隔距离，及各目标有效文本框的平均高度值之后，可以将间隔距离与平均高度值进行比较。

在间隔距离大于等于平均高度值的情况下，则表示相邻的两个目标有效文本框间隔较远，即相邻的两个目标有效文本框所框住的是两个文本。

而在间隔距离小于平均高度值的情况下，则表示相邻的两个目标有效文本框的间隔距离较近，即相邻的两个目标有效文本框所框住的是一个长文本，则可以对相邻的两个目标有效文本框进行合并处理。

在此处，可以根据两个目标有效文本框分别对应的四个顶点进行合并，具体地，可以获取两个目标有效文本框的8个顶点中的最大横坐标、最大纵坐标、最小横坐标和最小纵坐标，进而，以两个目标有效文本框的8个顶点分别对应的坐标中的最大横坐标、最大纵坐标、最小横坐标和最小纵坐标组成的框，作为最终的合并框，例如，两个目标有效文本框中，第一个目标有效文本框的四个顶点的坐标分别为：(0，0)、(0，1)、(1，0)、(1，1)，第二个目标有效文本框四个顶点的坐标分别为：(0，2)、(0，3)、(2，1)、(3，1)，其中，最大横坐标为3，最小横坐标为0，最大纵坐标为1，最小纵坐标为0，最大横坐标、最大纵坐标、最小横坐标和最小纵坐标组成的框的四个顶点的坐标即为：(0，0)、(0，1)、(3，0)、(3，1)，以此作为两个目标有效文本框合并之后得到的最终框。

步骤310：输出所述至少一个目标文本框。

上述排序过程也可以是对目标有效文本框的排序，具体地可以参照如下述优选实施例的描述。

在本发明实施例的一种优选实施例中，上述步骤310可以包括：

子步骤J1：依据各所述目标有效文本框在所述第二待处理图像中的位置信息，对各所述目标有效文本框进行排序；

子步骤J2：输出排序后的各所述目标有效文本框。

在本发明实施例中，在得到目标有效文本框之后，可以依据各目标有效文本框对应顶点的坐标值，获取各目标有效文本框在第二目标图像中的位置信息，对各目标有效文本框进行排序，具体地，可以根据各目标有效文本框的顶点坐标，按照第二待处理图像从左到右、从上到下的顺序，依次对各目标有效文本框进行排序，即对于同一行的多个目标有效文本框可以按照横坐标从小到大的顺序进行排序，而对于多行中的多个目标有效文本框可以按照纵坐标从小到大的顺序进行排序。

而在排序过程中，可以先进行行排序，然后再进行列排序，从而得到最终排序好的目标有效文本框。

在对各目标有效文本框进行排序之后，可以输出排序的目标有效文本框，从而，可以快速地获取到待处理图像中从左到右、从上到下的文本信息。

参照图8，示出了本发明实施例提供的一种图像处理模型生成装置的结构示意图，具体可以包括：

样本图像输入模块401，用于将多个训练样本图像输入第一图像处理模型；其中，所述第一图像处理模型包括维度转换层和输出层，所述训练样本图像包括多个原始文本框中每个原始文本框的顶点的初始坐标；维度合并处理模块402，用于调用所述维度转换层，对每个所述训练样本图像对应的第一四维特征进行维度合并处理，得到各所述训练样本图像对应的第二四维特征；预测图像生成模块403，用于调用所述输出层，对所述第二四维特征进行卷积运算，生成与每个所述训练样本图像对应的预测图像；所述预测图像包含多个检测文本框中每个检测文本框的顶点的预测坐标；损失值获取模块404，用于基于各所述初始坐标以及各所述预测坐标，获取所述第一图像处理模型的损失值；目标图像处理模型获取模块405，用于在所述损失值处于预设范围内的情况下，将所述第一图像处理模型作为目标图像处理模型。

优选地，所述维度转换层包括第一双向长短时记忆网络层和第二双向长短时记忆网络层；所述维度合并处理模块402包括：第一初始三维特征生成子模块，用于对所述第一四维特征的第一维的特征和第二维的特征进行合并处理，生成第一初始三维特征；初始竖向时间序列提取子模块，用于调用所述第一双向长短时记忆网络层，提取并输出所述第一初始三维特征中的竖向的初始时间序列特征；所述竖向的初始时间序列特征为四维特征；第二初始三维特征生成子模块，用于对所述竖向的初始时间序列的第一维的特征和第三维的特征进行合并处理，生成第二初始三维特征；初始横向时间序列提取子模块，用于调用所述第二双向长短时记忆网络层，提取并输出所述第二初始三维特征中的横向的初始时间序列特征，将所述横向的初始时间序列特征作为所述第二四维特征。

本发明实施例提供的图像处理模型生成装置，通过将多个训练样本图像输入第一图像处理模型，第一图像处理模型包括维度转换层和输出层，训练样本图像包括多个原始文本框中每个原始文本框的顶点的初始坐标，调用维度转换层对每个训练样本图像对应的第一四维特征进行维度合并处理，得到各训练样本图像对应的第二四维特征，调用输出层对第二四维特征进行卷积运算，生成与每个训练样本图像对应的预测图像，预测图像包含多个检测文本框中每个检测文本框的顶点的预测坐标，基于各初始坐标及各预测坐标，获取第一图像处理模型的损失值，并在损失值处于预设范围的情况下，将第一图像处理模型作为目标图像处理模型。本发明实施例通过调用维度转换层对每个训练样本图像对应的四维特征进行维度合并处理，并进行后续过程生成目标图像处理模型，从而可以在后续使用该目标图像处理模型对待处理图像进行文本检测时，可以通过维度转换层对待处理图像对应的四维特征进行横向和竖向的维度的特征进行合并及提取，可以增加在检测图像中文本时网络的感受视野，从而提高文本检测的准确率。

参照图9，示出了本发明实施例提供的一种图像处理装置的结构示意图，具体可以包括：

待处理图像输入模块501，用于将第一待处理图像输入预先训练好的目标图像处理模型；其中，所述目标图像处理模型包括维度转换层和输出层；四维特征获取模块502，用于调用所述维度转换层，对所述第一待处理图像对应的第一四维特征进行维度合并处理，得到第二四维特征；第二图像生成模块503，用于调用所述输出层，对所述第二四维特征进行卷积运算，生成第二待处理图像；其中，所述第二待处理图像包含多个文本框对应顶点的坐标值；目标文本框生成模块504，用于依据各所述文本框对应顶点的坐标值，对各所述文本框中的至少两个所述文本框进行合并处理，生成至少一个目标文本框；目标文本框输出模块505，用于输出所述至少一个目标文本框。

优选地，所述维度转换层包括第一双向长短时记忆网络层和第二双向长短时记忆网络层；所述四维特征获取模块502包括：第一三维特征生成子模块，用于对所述第一四维特征的第一维的特征和第二维的特征进行合并处理，生成第一三维特征；竖向序列特征提取子模块，用于调用所述第一双向长短时记忆网络层，提取并输出所述第一三维特征中的竖向的时间序列特征；所述竖向的时间序列特征为四维特征；第二三维特征生成子模块，用于对所述竖向的时间序列特征的第一维的特征和第三维的特征进行合并处理，生成第二三维特征；横向序列特征提取子模块，用于调用所述第二双向长短时记忆网络层，提取并输出所述第二三维特征中的横向的时间序列特征，将所述横向的时间序列特征作为所述第二四维特征。

优选地，所述第二图像生成模块503包括：文本特征检测子模块，用于调用所述输出层，检测出所述第二四维特征中的多个文本特征；一二文本特征获取子模块，用于获取所述多个文本特征中处于同一行中不间断的第一文本特征，及同一行中间断的多个第二文本特征；三维特征获取子模块，用于生成包含所述第一文本特征和各所述第二文本特征的最小的文本框，得到添加有文本框的三维特征；第二图像获取子模块，用于输出所述添加有文本框的三维特征，得到所述第二待处理图像。

优选地，所述目标文本框生成模块504包括：有效文本框获取子模块，用于获取各所述文本框中的各有效文本框；相邻文本框获取子模块，用于依据各所述有效文本框对应顶点的坐标值，获取各所述有效文本框中相邻的两个有效文本框；第一目标文本框生成子模块，用于对所述相邻的两个有效文本框进行合并处理，生成所述目标文本框。

本发明实施例提供的图像处理装置，通过将第一待处理图像输入预先训练好的目标图像处理模型，其中，目标图像处理模型包括维度输出层和输出层，调用维度转换层，对第一待处理图像对应的第一四维特征进行维度合并处理，得到第二四维特征，调用输出层，对第二四维特征进行卷积运算，生成第二待处理图像，第二待处理图像包含多个文本框对应顶点的坐标值，依据各文本框对应顶点的坐标值，对各文本框中的至少两个文本框进行合并处理，生成并输出至少一个目标文本框。本发明实施例通过对待处理图像对应的四维特征进行合并处理的过程，即通过对待处理图像不同维度的特征进行合并，并提取相应的时间序列特征，从而可以增加网络在不同方向上的感受视野，从而可以提高文本检测的准确率，并且，通过对文本框进行合并，避免了长文本被文本框隔开，进而可以有效检测出目标图像中的长文本，可以提高对目标图像中的长文本的检测准确率。

参照图10，示出了本发明实施例提供的一种图像处理装置的结构示意图，具体可以包括：

待处理图像输入模块601，用于将第一待处理图像输入预先训练好的目标图像处理模型；其中，所述目标图像处理模型包括维度转换层和输出层；四维特征获取模块602，用于调用所述维度转换层，对所述第一待处理图像对应的第一四维特征进行维度合并处理，得到第二四维特征；第二图像生成模块603，用于调用所述输出层，对所述第二四维特征进行卷积运算，生成第二待处理图像；其中，所述第二待处理图像包含多个文本框对应顶点的坐标值；目标文本框生成模块604，用于依据各所述文本框对应顶点的坐标值，对各所述文本框中的至少两个所述文本框进行合并处理，生成至少一个目标文本框；目标有效文本框获取模块605，用于从各所述目标文本框中，获取位于所述第二待处理图像的预设区域内至少一个目标有效文本框；文本框高度值计算模块606，用于依据各所述目标有效文本框对应顶点的坐标值，计算各所述目标有效文本框的高度值；平均高度值计算模块607，用于依据各所述高度值，计算得到平均高度值；间隔距离计算模块608，用于计算相邻两个所述目标有效文本框之间的间隔距离；有效文本框合并模块609，用于在所述间隔距离小于所述平均高度值的情况下，合并相邻两个所述目标有效文本框；目标文本框输出模块610，用于输出所述至少一个目标文本框。

优选地，所述目标文本框输出模块610包括：目标文本框排序子模块，用于依据各所述目标有效文本框在所述第二待处理图像中的位置信息，对各所述目标有效文本框进行排序；目标文本框输出子模块，用于输出排序后的各所述目标有效文本框。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可选的，本发明还提供一种终端设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述图像处理模型生成方法及图像处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

可选的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的图像处理模型生成方法实施例及图像处理方法实施例中的步骤。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本发明实施例中，通过将第一待处理图像输入预先训练好的目标图像处理模型，其中，目标图像处理模型包括维度输出层和输出层，调用维度转换层，对第一待处理图像对应的第一四维特征进行维度合并处理，得到第二四维特征，调用输出层，对第二四维特征进行卷积运算，生成第二待处理图像，第二待处理图像包含多个文本框对应顶点的坐标值，依据各文本框对应顶点的坐标值，对各文本框中的至少两个文本框进行合并处理，生成并输出至少一个目标文本框。本发明实施例通过对待处理图像对应的四维特征进行合并处理的过程，即通过对待处理图像不同维度的特征进行合并，并提取相应的时间序列特征，从而可以增加网络在不同方向上的感受视野，从而可以提高文本检测的准确率，并且，通过对文本框进行合并，避免了长文本被文本框隔开，进而可以有效检测出目标图像中的长文本，可以提高对目标图像中的长文本的检测准确率。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种图像处理模型生成方法、一种图像处理方法、一种图像处理模型生成装置、一种图像处理装置、一种终端设备及一种计算机可读存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图像处理模型生成方法，其特征在于，包括：

将多个训练样本图像输入第一图像处理模型；其中，所述第一图像处理模型包括维度转换层和输出层，所述训练样本图像包括多个原始文本框中每个原始文本框的顶点的初始坐标；

调用所述维度转换层，对每个所述训练样本图像对应的第一四维特征进行维度合并处理，得到各所述训练样本图像对应的第二四维特征；

调用所述输出层，对所述第二四维特征进行卷积运算，生成与每个所述训练样本图像对应的预测图像；所述预测图像包含多个检测文本框中每个检测文本框的顶点的预测坐标；

基于各所述初始坐标以及各所述预测坐标，获取所述第一图像处理模型的损失值；

在所述损失值处于预设范围内的情况下，将所述第一图像处理模型作为目标图像处理模型。

2.根据权利要求1所述的方法，其特征在于，所述维度转换层包括第一双向长短时记忆网络层和第二双向长短时记忆网络层；

所述调用所述维度转换层，对每个训练样本图像对应的第一四维特征进行维度合并处理，得到第二四维特征，包括：

对所述第一四维特征的第一维的特征和第二维的特征进行合并处理，生成第一初始三维特征；

调用所述第一双向长短时记忆网络层，提取并输出所述第一初始三维特征中的竖向的初始时间序列特征；所述竖向的初始时间序列特征为四维特征；

对所述竖向的初始时间序列的第一维的特征和第三维的特征进行合并处理，生成第二初始三维特征；

调用所述第二双向长短时记忆网络层，提取并输出所述第二初始三维特征中的横向的初始时间序列特征，将所述横向的初始时间序列特征作为所述第二四维特征。

3.一种图像处理方法，其特征在于，包括：

将第一待处理图像输入预先训练好的目标图像处理模型；其中，所述目标图像处理模型包括维度转换层和输出层；

调用所述维度转换层，对所述第一待处理图像对应的第一四维特征进行维度合并处理，得到第二四维特征；

调用所述输出层，对所述第二四维特征进行卷积运算，生成第二待处理图像；其中，所述第二待处理图像包含多个文本框对应顶点的坐标值；

依据各所述文本框对应顶点的坐标值，对各所述文本框中的至少两个所述文本框进行合并处理，生成至少一个目标文本框；

输出所述至少一个目标文本框。

4.根据权利要求3所述的方法，其特征在于，所述维度转换层包括第一双向长短时记忆网络层和第二双向长短时记忆网络层；

所述调用所述维度转换层，对所述第一待处理图像对应的第一四维特征进行维度合并处理，得到第二四维特征，包括：

对所述第一四维特征的第一维的特征和第二维的特征进行合并处理，生成第一三维特征；

调用所述第一双向长短时记忆网络层，提取并输出所述第一三维特征中的竖向的时间序列特征；所述竖向的时间序列特征为四维特征；

对所述竖向的时间序列特征的第一维的特征和第三维的特征进行合并处理，生成第二三维特征；

调用所述第二双向长短时记忆网络层，提取并输出所述第二三维特征中的横向的时间序列特征，将所述横向的时间序列特征作为所述第二四维特征。

5.根据权利要求3所述的方法，其特征在于，所述调用所述输出层，对所述第二四维特征进行卷积运算，生成第二待处理图像，包括：

调用所述输出层，检测出所述第二四维特征中的多个文本特征；

获取所述多个文本特征中处于同一行中不间断的第一文本特征，及同一行中间断的多个第二文本特征；

生成包含所述第一文本特征和各所述第二文本特征的最小的文本框，得到添加有文本框的三维特征；

输出所述添加有文本框的三维特征，得到所述第二待处理图像。

6.根据权利要求3所述的方法，其特征在于，所述依据各所述文本框对应顶点的坐标值，对各所述文本框中的至少两个所述文本框进行合并处理，生成至少一个目标文本框，包括：

获取各所述文本框中的各有效文本框；

依据各所述有效文本框对应顶点的坐标值，获取各所述有效文本框中相邻的两个有效文本框；

对所述相邻的两个有效文本框进行合并处理，生成所述目标文本框。

7.根据权利要求6所述的方法，其特征在于，所述对所述相邻的两个有效文本框进行合并处理，生成所述目标文本框，包括：

依据所述相邻的两个有效文本框的各顶点分别对应的坐标，获取最大横坐标、最小横坐标、最大纵坐标和最小纵坐标；

依据所述最大横坐标、所述最小横坐标、所述最大纵坐标和所述最小纵坐标，生成第一目标文本框；

获取所述相邻的两个有效文本框分别对应的分数值；

对所述相邻的两个有效文本框和所述分数值进行加权平均处理，生成第二目标文本框；

获取所述第一目标文本框和所述第二目标文本框分别对应的第一目标分数值和第二目标分数值；

对所述第一目标文本框、所述第二目标文本框、所述第一目标分数值和所述第二目标分数值进行加权平均处理，生成所述目标文本框。

8.根据权利要求3所述的方法，其特征在于，在所述依据各所述文本框对应顶点的坐标值，对各所述文本框中的至少两个所述文本框进行合并处理，生成至少一个目标文本框之后，还包括：

从各所述目标文本框中，获取位于所述第二待处理图像的预设区域内至少一个目标有效文本框；

依据各所述目标有效文本框对应顶点的坐标值，计算各所述目标有效文本框的高度值；

依据各所述高度值，计算得到平均高度值；

计算相邻两个所述目标有效文本框之间的间隔距离；

在所述间隔距离小于所述平均高度值的情况下，合并相邻两个所述目标有效文本框；

所述输出所述至少一个目标文本框，包括：

依据各所述目标有效文本框在所述第二待处理图像中的位置信息，对各所述目标有效文本框进行排序；

输出排序后的各所述目标有效文本框。

9.一种图像处理模型生成装置，其特征在于，包括：

样本图像输入模块，用于将多个训练样本图像输入第一图像处理模型；其中，所述第一图像处理模型包括维度转换层和输出层，所述训练样本图像包括多个原始文本框中每个原始文本框的顶点的初始坐标；

维度合并处理模块，用于调用所述维度转换层，对每个所述训练样本图像对应的第一四维特征进行维度合并处理，得到各所述训练样本图像对应的第二四维特征；

预测图像生成模块，用于调用所述输出层，对所述第二四维特征进行卷积运算，生成与每个所述训练样本图像对应的预测图像；所述预测图像包含多个检测文本框中每个检测文本框的顶点的预测坐标；

损失值获取模块，用于基于各所述初始坐标以及各所述预测坐标，获取所述第一图像处理模型的损失值；

目标图像处理模型获取模块，用于在所述损失值处于预设范围内的情况下，将所述第一图像处理模型作为目标图像处理模型。

10.根据权利要求9所述的装置，其特征在于，所述维度转换层包括第一双向长短时记忆网络层和第二双向长短时记忆网络层；

所述维度合并处理模块包括：

第一初始三维特征生成子模块，用于对所述第一四维特征的第一维的特征和第二维的特征进行合并处理，生成第一初始三维特征；

初始竖向时间序列提取子模块，用于调用所述第一双向长短时记忆网络层，提取并输出所述第一初始三维特征中的竖向的初始时间序列特征；所述竖向的初始时间序列特征为四维特征；

第二初始三维特征生成子模块，用于对所述竖向的初始时间序列的第一维的特征和第三维的特征进行合并处理，生成第二初始三维特征；

初始横向时间序列提取子模块，用于调用所述第二双向长短时记忆网络层，提取并输出所述第二初始三维特征中的横向的初始时间序列特征，将所述横向的初始时间序列特征作为所述第二四维特征。

11.一种图像处理装置，其特征在于，包括：

待处理图像输入模块，用于将第一待处理图像输入预先训练好的目标图像处理模型；其中，所述目标图像处理模型包括维度转换层和输出层；

四维特征获取模块，用于调用所述维度转换层，对所述第一待处理图像对应的第一四维特征进行维度合并处理，得到第二四维特征；

第二图像生成模块，用于调用所述输出层，对所述第二四维特征进行卷积运算，生成第二待处理图像；其中，所述第二待处理图像包含多个文本框对应顶点的坐标值；

目标文本框生成模块，用于依据各所述文本框对应顶点的坐标值，对各所述文本框中的至少两个所述文本框进行合并处理，生成至少一个目标文本框；

目标文本框输出模块，用于输出所述至少一个目标文本框。

12.根据权利要求11所述的装置，其特征在于，所述维度转换层包括第一双向长短时记忆网络层和第二双向长短时记忆网络层；

所述四维特征获取模块包括：

第一三维特征生成子模块，用于对所述第一四维特征的第一维的特征和第二维的特征进行合并处理，生成第一三维特征；

竖向序列特征提取子模块，用于调用所述第一双向长短时记忆网络层，提取并输出所述第一三维特征中的竖向的时间序列特征；所述竖向的时间序列特征为四维特征；

第二三维特征生成子模块，用于对所述竖向的时间序列特征的第一维的特征和第三维的特征进行合并处理，生成第二三维特征；

横向序列特征提取子模块，用于调用所述第二双向长短时记忆网络层，提取并输出所述第二三维特征中的横向的时间序列特征，将所述横向的时间序列特征作为所述第二四维特征。

13.根据权利要求11所述的装置，其特征在于，所述第二图像生成模块包括：

文本特征检测子模块，用于调用所述输出层，检测出所述第二四维特征中的多个文本特征；

一二文本特征获取子模块，用于获取所述多个文本特征中处于同一行中不间断的第一文本特征，及同一行中间断的多个第二文本特征；

三维特征获取子模块，用于生成包含所述第一文本特征和各所述第二文本特征的最小的文本框，得到添加有文本框的三维特征；

第二图像获取子模块，用于输出所述添加有文本框的三维特征，得到所述第二待处理图像。

14.根据权利要求11所述的装置，其特征在于，所述目标文本框生成模块包括：

有效文本框获取子模块，用于获取各所述文本框中的各有效文本框；

相邻文本框获取子模块，用于依据各所述有效文本框对应顶点的坐标值，获取各所述有效文本框中相邻的两个有效文本框；

第一目标文本框生成子模块，用于对所述相邻的两个有效文本框进行合并处理，生成所述目标文本框。

15.根据权利要求14所述的装置，其特征在于，所述第一目标文本框生成子模块包括：

最大最小坐标获取子模块，用于依据所述相邻的两个有效文本框的各顶点分别对应的坐标，获取最大横坐标、最小横坐标、最大纵坐标和最小纵坐标；

第一目标文本框生成子模块，用于依据所述最大横坐标、所述最小横坐标、所述最大纵坐标和所述最小纵坐标，生成第一目标文本框；

分数值获取子模块，用于获取所述相邻的两个有效文本框分别对应的分数值；

第二目标文本框生成子模块，用于对所述相邻的两个有效文本框和所述分数值进行加权平均处理，生成第二目标文本框；

目标分数值获取子模块，用于获取所述第一目标文本框和所述第二目标文本框分别对应的第一目标分数值和第二目标分数值；

第二目标文本框生成子模块，用于对所述第一目标文本框、所述第二目标文本框、所述第一目标分数值和所述第二目标分数值进行加权平均处理，生成所述目标文本框。

16.根据权利要求11所述的装置，其特征在于，还包括：

目标有效文本框获取模块，用于从各所述目标文本框中，获取位于所述第二待处理图像的预设区域内至少一个目标有效文本框；

文本框高度值计算模块，用于依据各所述目标有效文本框对应顶点的坐标值，计算各所述目标有效文本框的高度值；

平均高度值计算模块，用于依据各所述高度值，计算得到平均高度值；

间隔距离计算模块，用于计算相邻两个所述目标有效文本框之间的间隔距离；

有效文本框合并模块，用于在所述间隔距离小于所述平均高度值的情况下，合并相邻两个所述目标有效文本框；

所述目标文本框输出模块包括：

目标文本框排序子模块，用于依据各所述目标有效文本框在所述第二待处理图像中的位置信息，对各所述目标有效文本框进行排序；

目标文本框输出子模块，用于输出排序后的各所述目标有效文本框。

17.一种终端设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至2中任一项所述的图像处理模型生成方法的步骤，及如权利要求3至8中任一项所述的图像处理方法的步骤。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至2中任一项所述的图像处理模型生成方法中的步骤，及如权利要求3-8中任一项所述的图像处理方法的步骤。