CN110309825A

CN110309825A - 一种复杂背景下的维吾尔文检测方法、系统及电子设备

Info

Publication number: CN110309825A
Application number: CN201810232999.0A
Authority: CN
Inventors: 彭勇; 冯良炳
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2018-03-20
Filing date: 2018-03-20
Publication date: 2019-10-08

Abstract

本申请属于文字识别技术领域，特别涉及一种复杂背景下的维吾尔文检测方法、系统及电子设备。所述复杂背景下的维吾尔文检测方法包括：步骤a：读取维吾尔文图像，并根据维吾尔文图像构建数据样本集；步骤b：构建深层卷积神经网络，并采用所述数据样本集对深层卷积神经网络进行训练；步骤c：将待检测维吾尔文图像输入训练好的深层卷积神经网络，通过特征提取网络组件提取所述待检测维吾尔文图像的多尺寸特征图谱，将提取的多尺寸特征图谱输入到文本定位网络组件，所述文本定位网络组件根据输入的多尺寸特征图谱检测出待检测维吾尔文图像中维吾尔文的位置信息。相对于现有技术，本申请的准确率高，且检测速度快。

Description

一种复杂背景下的维吾尔文检测方法、系统及电子设备

技术领域

本申请属于文字识别技术领域，特别涉及一种复杂背景下的维吾尔文检测方法、系统及电子设备。

背景技术

图像中的文字包含了人类的高层语义信息，文字识别技术在无人机巡航、视觉障碍辅助系统、工业自动化、机器人、自动驾驶、信息管控等领域有着重要的作用。例如，识别出街道和商店的标牌中的文字，可以为自动驾驶汽车提供所在场景的一些位置信息；与此同时，识别出视频中出现的文字，可以定位出敏感信息，为信息管控提供技术支持。

复杂背景下的文字检测是文字识别前的一个必要环节。复杂背景下的维吾尔文检测问题可以定义为一个二分类问题。即：将图像划分为确定的文字区域、背景区域；近几年来，针对复杂背景下的文字检测，众多研究者开展了大量的工作，具体地，复杂背景下的文字检测方法可以分为以下几类：基于纹理的方法、基于连通区域的方法以及这两种方法的融合。

基于纹理的方法一般是考虑到图像中文本的纹理特征显著得区别于它的背景信息。基于连通区域的方法可以被认为是一种图算法，它是基于特征一致性的连通子集的独特标记的启发式算法，常用的特征有颜色一致性和空间布局。在使用基于连通区域的方法时，句法的模式识别方法通常被使用去分析空间和特征一致性，并定义文本框。

上述的复杂背景下的文字检测方法都是将文本检测分为四个关键阶段：字符和单词候选区域提取、字符和单词候选区域分类、文本行聚类和后处理。现有方法存在的问题在于：处理流程繁琐，需要人为构造特征，而且因为处理流程繁琐，检测的准确率不高。

发明内容

本申请提供了一种复杂背景下的维吾尔文检测方法、系统及电子设备，旨在至少在一定程度上解决现有技术中的上述技术问题之一。

为了解决上述问题，本申请提供了如下技术方案：

一种复杂背景下的维吾尔文检测方法，包括以下步骤：

步骤a：读取维吾尔文图像，并根据维吾尔文图像构建数据样本集；

步骤b：构建深层卷积神经网络，并采用所述数据样本集对深层卷积神经网络进行训练；

步骤c：将待检测维吾尔文图像输入训练好的深层卷积神经网络，通过特征提取网络组件提取所述待检测维吾尔文图像的多尺寸特征图谱，将提取的多尺寸特征图谱输入到文本定位网络组件，所述文本定位网络组件根据输入的多尺寸特征图谱检测出待检测维吾尔文图像中维吾尔文的位置信息。

本申请实施例采取的技术方案还包括：在所述步骤a中，所述读取维吾尔文图像还包括：将读取的维吾尔文图像进行图像尺寸处理，同时对图像尺寸处理后的维吾尔文图像进行减RGB均值操作。

本申请实施例采取的技术方案还包括：在所述步骤a中，所述根据维吾尔文图像构建数据样本集具体为：对所述维吾尔文图像进行文本位置标注，得到ground-truth框，并根据标注后的维吾尔文图像构建数据样本集；其中，所述文本位置标注包括文本框的中心坐标、文本框的宽和高、以及文本框的字符内容。

本申请实施例采取的技术方案还包括：在所述步骤b中，所述采用数据样本集对深层卷积神经网络进行训练具体包括：

步骤b1：训练特征提取网络组件；

步骤b2：采用随机初始化的方式初始化文本定位网络组件参数，并根据定义的文本定位网络组件的损失函数对文本定位网络组件参数进行调整；

步骤b3：根据网络的目标函数对整个网络进行端对端的微调，获得最终的训练结果；

步骤b4：输出维吾尔文图像中维吾尔文字符的位置信息，即预测的文本框与默认框的中心坐标偏置、宽高偏置以及维吾尔文文本的置信度得分，为默认框确定中心坐标、尺寸大小和宽高比例；

步骤b5：判断ground-truth框与默认框之间的重叠率是否大于预定阈值，如果ground-truth框与默认框之间的重叠率大于预定阈值，则将ground-truth框与默认框进行匹配；

步骤b6：将ground-truth框与默认框进行匹配后，选取正负样本，并使得负样本：正样本＝3:1。

本申请实施例采取的技术方案还包括：在所述步骤b3中，所述网络的目标函数为：

上述公式中，Loss_location代表定位损失，Loss代表总的损失，N代表匹配的默认框数目，g代表ground-truth框的参数，α代表平衡因子，设置为1，l代表预测的文本框，d代表默认框，cx，cy代表默认框的中心坐标，W代表默认框的宽度，h代表默认框的高度，表示第i个默认框与类别p的第j个ground-truth框相匹配，如果第i个默认框与类别p的第j个ground-truth框不匹配，则

置信度损失：

上述公式中，置信度损失Loss_confidence是softmax损失函数，输入为每一个类的置信度c。

本申请实施例采取的另一技术方案为：一种复杂背景下的维吾尔文检测系统，包括：

图像读取模块：用于读取维吾尔文图像；

文本标注模块：用于根据维吾尔文图像构建数据样本集；

网络构建模块：用于构建深层卷积神经网络；

网络训练模块：用于采用所述数据样本集对深层卷积神经网络进行训练；

文字检测模块：用于将待检测维吾尔文图像输入训练好的深层卷积神经网络，通过特征提取网络组件提取所述待检测维吾尔文图像的多尺寸特征图谱，将提取的多尺寸特征图谱输入到文本定位网络组件，所述文本定位网络组件根据输入的多尺寸特征图谱检测出待检测维吾尔文图像中维吾尔文的位置信息。

本申请实施例采取的技术方案还包括图像处理模块，所述图像处理模块用于将读取的维吾尔文图像进行图像尺寸处理，同时对图像尺寸处理后的维吾尔文图像进行减RGB均值操作。

本申请实施例采取的技术方案还包括：所述文本标注模块根据维吾尔文图像构建数据样本集具体为：对所述维吾尔文图像进行文本位置标注，得到ground-truth框，并根据标注后的维吾尔文图像构建数据样本集；其中，所述文本位置标注包括文本框的中心坐标、文本框的宽和高、以及文本框的字符内容。

本申请实施例采取的技术方案还包括：所述网络训练模块包括：

第一训练单元：用于训练特征提取网络组件；

第二训练单元：用于采用随机初始化的方式初始化文本定位网络组件参数，并根据定义的文本定位网络组件的损失函数对文本定位网络组件参数进行调整；

网络调整单元：用于根据网络的目标函数对整个网络进行端对端的微调，获得最终的训练结果；

结果输出单元：用于输出维吾尔文图像中维吾尔文字符的位置信息，即预测的文本框与默认框的中心坐标偏置、宽高偏置以及维吾尔文文本的置信度得分，为默认框确定中心坐标、尺寸大小和宽高比例；

结果匹配单元：用于判断ground-truth框与默认框之间的重叠率是否大于预定阈值，如果ground-truth框与默认框之间的重叠率大于预定阈值，则将ground-truth框与默认框进行匹配；

样本选取单元：用于将ground-truth框与默认框进行匹配后，选取正负样本，并使得负样本：正样本＝3:1。

本申请实施例采取的技术方案还包括：所述网络的目标函数为：

置信度损失：

本申请实施例采取的又一技术方案为：一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的复杂背景下的维吾尔文检测方法的以下操作：

相对于现有技术，本申请实施例产生的有益效果在于：本申请实施例的复杂背景下的维吾尔文检测方法、系统及电子设备采用深度学习的方法进行复杂背景下的维吾尔文检测，可以端到端的处理，输入的是原始的维吾尔文图像，输出的是检测出来的维吾尔文字符的位置；在特征提取过程中，利用了图像的多尺度特征信息，直接将提取的多尺度特征图谱输入到文本定位网络，相对于现有技术，本申请的准确率高，且检测速度快。

附图说明

图1是本申请实施例的复杂背景下的维吾尔文检测方法的流程图；

图2是本申请实施例的深层卷积神经网络训练过程示意图；

图3为待检测维吾尔文图像样本示意图；

图4为输出的维吾尔文效果示意图；

图5是本申请实施例的复杂背景下的维吾尔文检测系统的结构示意图；

图6是本申请实施例提供的复杂背景下的维吾尔文检测方法的硬件设备结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

请参阅图1，是本申请实施例的复杂背景下的维吾尔文检测方法的流程图。本申请实施例的复杂背景下的维吾尔文检测方法包括以下步骤：

步骤100：读取复杂背景下的维吾尔文图像；

步骤200：将读取的维吾尔文图像进行图像尺寸处理，得到需要的图像尺寸大小，同时对图像尺寸处理后的维吾尔文图像进行减RGB均值操作；

步骤300：对维吾尔文图像进行文本位置标注，得到ground-truth框，并根据标注后的维吾尔文图像构建数据样本集；

在步骤300中，文本位置标注包括文本框的中心坐标、文本框的宽和高、以及文本框的字符内容；数据样本集分为训练集、验证集和测试集。

步骤400：构建深层卷积神经网络，并采用训练集对深层卷积神经网络进行训练；

在步骤400中，构建深层卷积神经网络具体包括：配置网络的层次结构、卷积核的大小、每层卷积核的数目、卷积的滑动步长和是否padding(填充)，并定义文本定位网络组件的损失函数，将其作为整个深层卷积神经网络的损失函数。深层卷积神经网络的输入是复杂背景下的维吾尔文图像，输出是维吾尔文图像中维吾尔文字符的位置信息。网络训练时，训练集数据被随机中心裁剪成224*224像素大小，并随机水平翻转；使用随机梯度下降(SGD)训练，训练的权值衰减取0.0005，动量取0.9，学习率(learning rate)计算公式为：

lr＝base_lr*(1+0·000l*iteration)～(-0.75) (1)

上述公式中，iteration是迭代的次数，前10万次迭代，base_lr取值为0.001，之后base_lr取值为0.0001。

具体地，请一并参阅图2，是本申请实施例的深层卷积神经网络训练过程示意图。本申请实施例的深层卷积神经网络训练过程包括以下步骤：

步骤401：训练特征提取网络组件，采用从ResNet-101模型中的相应层权重来初始化特征提取网络组件；

步骤402：在已训练好的特征提取网络组件的基础上增加文本定位网络组件进行训练，固定特征提取网络组件参数，采用随机初始化的方式(均值为0，方差为0.01的高斯随机)初始化文本定位网络组件参数，并根据定义的文本定位网络组件的损失函数对文本定位网络组件参数进行调整；

步骤403：根据网络的目标函数对整个网络进行端对端的微调，获得最终的训练结果；

在步骤403中，网络的目标函数为：

上述公式中，Loss_location代表定位损失，Loss代表总的损失，N代表匹配的默认框数目，g代表ground-truth框的参数，α代表平衡因子，设置为1，l代表预测的文本框，d代表默认框，(cx，cy)代表默认框的中心坐标，W代表默认框的宽度，h代表默认框的高度，表示第i个默认框与类别p的第j个ground-truth框相匹配，如果第i个默认框与类别p的第j个ground-truth框不匹配，则本申请实施例中，类别p分为2类，分别为维吾尔文和背景区域。

置信度损失：

步骤404：输出维吾尔文图像中维吾尔文字符的位置信息，即预测的文本框与默认框的中心坐标偏置、宽高偏置以及维吾尔文文本的置信度得分(Δx,Δy,Δw,Δh,c)，为默认框确定中心坐标、尺寸大小和宽高比例；

上述公式中，m代表特征图谱的个数，根据维吾尔文图像中维吾尔文文本行长的特点，使用不同的宽高比例，a∈{3,4,5,7,9,10}，宽度为高度为每一个默认框的中心坐标设置为其中|fk|是第k个特征图谱的大小，同时i,j∈[0,|fk|]。

步骤405：根据ground-truth框与默认框的重叠率进行匹配，如果ground-truth框与默认框之间的重叠率大于预定阈值，则将该ground-truth框与默认框进行匹配；

在步骤405中，用于判断重叠率的预定阈值设为：0.6，具体可根据实际操作进行设定。

步骤406：选取正负样本：将每一行维吾尔文文本行位置信息对应的默认框是负框的进行排序，并按照默认框的置信度排序，选取最高的几个，同时保证负样本：正样本＝3:1；

在步骤406中，将ground-truth框与默认框进行匹配后，需要控制产生的负样本和正样本的比例，以便于更快优化，更稳定训练。

步骤500：使用测试集对训练好的深层卷积神经网络进行测试，对网络性能进行评价；

步骤600：将待检测维吾尔文图像输入深层卷积神经网络，通过特征提取网络组件提取待检测维吾尔文图像各个网络层的多尺寸特征图谱，将各个网络层的多尺寸特征图谱输入到文本定位网络组件，文本定位网络组件根据输入的多尺寸特征图谱检测出待检测维吾尔文图像中维吾尔文的位置信息，并通过非极大值抑制输出维吾尔文的位置信息。

在步骤600中，本申请在特征提取过程中，利用了图像的多尺寸特征信息，直接将提取的多尺寸特征图谱输入到文本定位网络组件进行复杂背景下的维吾尔文检测，准确率高，检测速度快。复杂背景下的维吾尔文检测具体如图3和图4所示，其中，图3为待检测维吾尔文图像样本示意图，图4为输出的维吾尔文效果示意图。

请参阅图5，是本申请实施例的复杂背景下的维吾尔文检测系统的结构示意图。本申请实施例的复杂背景下的维吾尔文检测系统包括图像读取模块、图像处理模块、文本标注模块、网络构建模块、网络训练模块、网络测试模块和文字检测模块。

图像读取模块：用于读取复杂背景下的维吾尔文图像；

图像处理模块：用于将读取的维吾尔文图像进行图像尺寸处理，得到需要的图像尺寸大小，同时对图像尺寸处理后的维吾尔文图像进行减RGB均值操作；

文本标注模块：用于对维吾尔文图像进行文本位置标注，得到ground-truth框，并根据标注后的维吾尔文图像构建数据样本集；其中，文本位置标注包括文本框的中心坐标、文本框的宽和高、以及文本框的字符内容；数据样本集分为训练集、验证集和测试集。

网络构建模块：用于构建深层卷积神经网络；其中，构建深层卷积神经网络具体包括：配置网络的层次结构、卷积核的大小、每层卷积核的数目、卷积的滑动步长和是否padding(填充)，并定义文本定位网络组件的损失函数，将其作为整个深层卷积神经网络的损失函数。深层卷积神经网络的输入是复杂背景下的维吾尔文图像，输出是维吾尔文图像中维吾尔文字符的位置信息。

网络训练模块：用于采用训练集对深层卷积神经网络进行训练；网络训练时，训练集数据被随机中心裁剪成224*224像素大小，并随机水平翻转；使用随机梯度下降(SGD)训练，训练的权值衰减取0.0005，动量取0.9，学习率(learning rate)计算公式为：

lr＝base_lr*(1+0·000l*iteration)～(-0.75) (1)

具体地，网络训练模块包括：

第一训练单元：用于训练特征提取网络组件，本申请实施例采用从ResNet-101模型中的相应层权重来初始化特征提取网络组件；

第二训练单元：用于在已训练好的特征提取网络组件的基础上增加文本定位网络组件进行训练，固定特征提取网络组件参数，采用随机初始化的方式(均值为0，方差为0.01的高斯随机)初始化文本定位网络组件参数，并根据定义的文本定位网络组件的损失函数对文本定位网络组件参数进行调整；

网络调整单元：用于根据网络的目标函数对整个网络进行端对端的微调，获得最终的训练结果；其中，网络的目标函数为：

置信度损失：

结果输出单元：用于输出维吾尔文图像中维吾尔文字符的位置信息，即预测的文本框与默认框的中心坐标偏置、宽高偏置以及维吾尔文文本的置信度得分(Δx,Δy,Δw,Δh,c)，为默认框确定中心坐标、尺寸大小和宽高比例；

结果匹配单元：用于根据ground-truth框与默认框的重叠率进行匹配，如果ground-truth框与默认框之间的重叠率大于预定阈值，则将该ground-truth框与默认框进行匹配；本申请实施例中，用于判断重叠率的预定阈值设为：0.6，具体可根据实际操作进行设定。

样本选取单元：用于选取正负样本，将每一行维吾尔文文本行位置信息对应的默认框是负框的进行排序，并按照默认框的置信度排序，选取最高的几个，同时保证负样本：正样本＝3:1；本申请实施例中，将ground-truth框与默认框进行匹配后，需要控制产生的负样本和正样本的比例，以便于更快优化，更稳定训练。

网络测试模块：用于使用测试集对训练好的深层卷积神经网络进行测试，对网络性能进行评价；

文字检测模块：用于将待检测维吾尔文图像输入深层卷积神经网络，通过特征提取网络组件提取待检测维吾尔文图像各个网络层的多尺寸特征图谱，将各个网络层的多尺寸特征图谱输入到文本定位网络组件，文本定位网络组件根据输入的多尺寸特征图谱检测出待检测维吾尔文图像中维吾尔文的位置信息，并通过非极大值抑制输出维吾尔文的位置信息。本申请实施例在特征提取过程中，利用了图像的多尺寸特征信息，直接将提取的多尺寸特征图谱输入到文本定位网络组件进行复杂背景下的维吾尔文检测，准确率高，检测速度快。

图6是本申请实施例提供的复杂背景下的维吾尔文检测方法的硬件设备结构示意图。如图6所示，该设备包括一个或多个处理器以及存储器。以一个处理器为例，该设备还可以包括：输入系统和输出系统。

处理器、存储器、输入系统和输出系统可以通过总线或者其他方式连接，图6中以通过总线连接为例。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述方法实施例的处理方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入系统可接收输入的数字或字符信息，以及产生信号输入。输出系统可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器中，当被所述一个或者多个处理器执行时，执行上述任一方法实施例的以下操作：

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例提供的方法。

本申请实施例提供了一种非暂态(非易失性)计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行以下操作：

本申请实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行以下操作：

本申请实施例的复杂背景下的维吾尔文检测方法、系统及电子设备采用深度学习的方法进行复杂背景下的维吾尔文检测，可以端到端的处理，输入的是原始的维吾尔文图像，输出的是检测出来的维吾尔文字符的位置；在特征提取过程中，利用了图像的多尺度特征信息，直接将提取的多尺度特征图谱输入到文本定位网络，相对于现有技术，本申请的准确率高，且检测速度快。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种复杂背景下的维吾尔文检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的复杂背景下的维吾尔文检测方法，其特征在于，在所述步骤a中，所述读取维吾尔文图像还包括：将读取的维吾尔文图像进行图像尺寸处理，同时对图像尺寸处理后的维吾尔文图像进行减RGB均值操作。

3.根据权利要求2所述的复杂背景下的维吾尔文检测方法，其特征在于，在所述步骤a中，所述根据维吾尔文图像构建数据样本集具体为：对所述维吾尔文图像进行文本位置标注，得到ground-truth框，并根据标注后的维吾尔文图像构建数据样本集；其中，所述文本位置标注包括文本框的中心坐标、文本框的宽和高、以及文本框的字符内容。

4.根据权利要求3所述的复杂背景下的维吾尔文检测方法，其特征在于，在所述步骤b中，所述采用数据样本集对深层卷积神经网络进行训练具体包括：

步骤b1：训练特征提取网络组件；

5.根据权利要求4所述的复杂背景下的维吾尔文检测方法，其特征在于，在所述步骤b3中，所述网络的目标函数为：

置信度损失：

6.一种复杂背景下的维吾尔文检测系统，其特征在于，包括：

图像读取模块：用于读取维吾尔文图像；

文本标注模块：用于根据维吾尔文图像构建数据样本集；

网络构建模块：用于构建深层卷积神经网络；

7.根据权利要求6所述的复杂背景下的维吾尔文检测系统，其特征在于，还包括图像处理模块，所述图像处理模块用于将读取的维吾尔文图像进行图像尺寸处理，同时对图像尺寸处理后的维吾尔文图像进行减RGB均值操作。

8.根据权利要求7所述的复杂背景下的维吾尔文检测系统，其特征在于，所述文本标注模块根据维吾尔文图像构建数据样本集具体为：对所述维吾尔文图像进行文本位置标注，得到ground-truth框，并根据标注后的维吾尔文图像构建数据样本集；其中，所述文本位置标注包括文本框的中心坐标、文本框的宽和高、以及文本框的字符内容。

9.根据权利要求8所述的复杂背景下的维吾尔文检测系统，其特征在于，所述网络训练模块包括：

第一训练单元：用于训练特征提取网络组件；

10.根据权利要求9所述的复杂背景下的维吾尔文检测系统，其特征在于，所述网络的目标函数为：

置信度损失：

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述1至5任一项所述的复杂背景下的维吾尔文检测方法的以下操作：