CN111401371A

CN111401371A - 一种文本检测识别方法、系统及计算机设备

Info

Publication number: CN111401371A
Application number: CN202010492041.2A
Authority: CN
Inventors: 钟龙申; 潘伟; 王珏; 廖健; 祝大裕
Original assignee: China Post Consumer Finance Co ltd
Current assignee: China Post Consumer Finance Co ltd
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2020-07-10
Anticipated expiration: 2040-06-03
Also published as: CN111401371B

Abstract

本发明涉及一种文本检测识别方法、系统及计算机设备，方法包括如下步骤：收集不同角度的样本图像构建样本图像集；基于样本图像集对分类模型进行训练，得到角度矫正模型；将样本图像统一调整为标准角度，标注样本图像的真实文本框，采用K‑means聚类算法计算样本图像集的锚框，将样本图像、真实文本框以及锚框输入yolo V3网络进行训练，得到文本框检测模型；基于标注有文本框的样本图像对CRNN网络进行训练，得到文本识别模型；根据角度矫正模型、文本框检测模型以及文本识别模型对待测文本图像进行文本检测识别。本发明降低yolo V3网络低端训练难度，从而提高文本检测识别效率。

Description

一种文本检测识别方法、系统及计算机设备

技术领域

本发明涉及文本识别技术领域，特别涉及一种文本检测识别方法、系统及计算机设备。

背景技术

文本检测是指从一张图片中准确无误的检测出文本所在位置的技术。文本识别顾名思义就是从图中固定位置识别出图中文字的技术。目前文本检测以及文本识别技术被应用到各个领域，例如在持牌消费金融机构中，每天都会进行大量的证件审核，以及内容审核，证件类图片主要以人眼识别为主，在业务过程消耗过多的人工成本，利用文本检测识别技术进行证件审核，可以大大提高工作效率。近几年随着计算机视觉技术的发展，自然场景中文本定位和识别问题引起了高度关注，同时随着计算机视觉技术和模式的进步，特别是深度学习和GPU资源丰富的情况下，使得在自然场景下文本检测和文字识别问题变得更加可行。

文本检测不是一件简单的任务，尤其是复杂场景下的文本检测，非常具有挑战性。主要有以下几个难点，文本存在多种分布，文本排布形式多样、文本存在多个方向、多种语言混合。自然场景文本检测方面，近些年来出现了多种优秀的算法解决方案，尤其是应用最广的CTPN算法，虽然其在文本检测中表现优异，但还是存在诸多问题。首先，在自然场景下，算法很难分辨出哪些是文本和非文本。其次，文本角度复杂，只能检测出水平或者倾斜角度很小的文本行，且倾斜角度文本定位效果较差。

文本识别主要难点来源于不定长文本识别，如果按照传统方法通过对单字符以实现全文的识别，这一过程会导致上下文信息的丢失，因此引入上下文的信息，成为了提升自然场景下文本识别的关键。自然场景文本识别方面，自然场景下的文字识别对算法提出了更高的要求，目前应用最广的CRNN算法，虽然其在文本识别中表现优异，但还是有以下问题。首先，在长文本识别中表现乏力，其次工程部署方面，该算法无法并行。

发明内容

基于此，有必要提供一种文本检测识别方法、系统及计算机设备，解决现有技术中文本分布以及文本形式多样化，导致文本检测困难，检测效率低的技术问题。

本发明实施例一方面提供一种文本检测识别方法，包括如下步骤：

收集不同角度的样本图像构建样本图像集，对所述样本图像集中样本图像进行预处理；

基于所述样本图像集对分类模型进行训练，得到角度矫正模型；

将所述样本图像统一调整为标准角度，标注所述样本图像的真实文本框，采用K-means聚类算法，计算所述样本图像集的锚框，将所述样本图像、真实文本框以及所述锚框输入yolo V3网络进行训练，得到文本框检测模型；

基于标注有文本框的样本图像对CRNN网络进行训练，得到文本识别模型；

根据所述角度矫正模型、文本框检测模型以及文本识别模型对待测文本图像进行文本检测识别。

作为上述实施例的进一步改进，收集不同角度的样本图像构建样本图像集，具体为：

收集不同角度的样本图像，对所述样本图像进行图像增强，增加所述样本图像的数量以及角度类型，得到所述样本图像集；

对所述样本图像集中样本图像进行预处理，具体为：

对所述样本图像进行高通滤波，以去除模糊噪声。

作为上述实施例的进一步改进，基于所述样本图像集对分类模型进行训练，得到角度矫正模型，具体为：

标注每一所述样本图像的偏转角度，依次将各所述样本图像输入所述分类模型提取每一所述样本图像的特征，根据提取的特征对偏转角度进行预测，得到预测角度，将所述预测角度与所述偏转角度进行对比，并根据对比结果调整所述分类模型的模型参数，得到所述角度矫正模型。

作为上述实施例的进一步改进，采用K-means聚类算法，计算所述样本图像集的锚框，具体为：

在所述样本图像中标注多个标注框，选择设定个数的标注框作为初始聚类中心；

计算其他标注框与每一聚类中心之间的距离，将标注框分配至距离最近的聚类中心所在的标注框簇；

重新计算每一类标注框簇的聚类中心，判断当前聚类中心与上一次的聚类中心之间的距离是否小于设定阈值，如果小于，则输出聚类中心得到所述样本图像集的锚框，如果不小于，则转上一步进行下一次聚类。

作为上述实施例的进一步改进，将所述样本图像、真实文本框以及所述锚框输入yolo V3网络进行训练，得到文本框检测模型，具体为：

将所述样本图像输入yolo V3网络，提取得到设定尺寸的特征地图，将所述特征地图分为多个网格单元，将样本图像的文本框中心所在的网格单元作为预测网格单元，以所述预测网格单元为中心获取所述样本图像中与所述锚框相对应的预测边框，筛选出与真实文本框的IOU值最大的预测边框作为预测文本框，将所述真实文本框与所述预测文本框进行对比，根据对比结果调整所述yolo V3网络的模型参数，得到所述文本框检测模型。

作为上述实施例的进一步改进，基于标注有文本框的样本图像对CRNN网络进行训练，得到文本识别模型，具体为：

标注每一所述文本框的真实文本信息，将所述标注有文本框的样本图像输入所述CRNN网络，得到预测文本信息，将所述预测文本信息与所述真实文本信息进行对比，根据对比结果对所述CRNN网络的参数进行调整得到所述文本识别模型。

作为上述实施例的进一步改进，所述CRNN网络包括卷积层、循环层以及转录层；

所述卷积层用于提取所述文本框的特征序列；

所述循环层用于将所述特征序列输入transformer模型中，得到特征序列代表的标签值序列，对所述标签值序列进行softmax操作，得到所述标签值序列中每一标签值的出现概率，得到标签值分布序列；

所述转录层用于对所述标签值分布序列进行CTC操作，得到去重整合后的文本信息识别结果。

作为上述实施例的进一步改进，根据所述角度矫正模型、文本框检测模型以及文本识别模型对待测文本图像进行文本检测识别，具体为：

将所述待测文本图像输入所述角度矫正模型，得到预测角度，根据所述预测角度对所述待测文本图像进行旋转得到标准角度下的待测文本图像；

将标准角度下的所述待测文本图像输入所述文本框检测模型得到预测文本框；

将所述预测文本框输入所述文本识别模型，得到文本识别结果。

本发明实施例另一方面提供一种文本检测识别系统，包括角度矫正训练模块、文本框检测训练模块、文本识别训练模块以及检测识别模块；

所述角度矫正训练模块用于收集不同角度的样本图像构建样本图像集，对所述样本图像集中样本图像进行预处理；基于所述样本图像集对分类模型进行训练，得到角度矫正模型；

所述文本框检测训练模块用于将所述样本图像统一调整为标准角度，标注所述样本图像的真实文本框，采用K-means聚类算法，计算所述样本图像集的锚框，将所述样本图像、真实文本框以及所述锚框输入yolo V3网络进行训练，得到文本框检测模型；

所述文本识别训练模块用于基于标注有文本框的样本图像对CRNN网络进行训练，得到文本识别模型；

所述检测识别模块用于根据所述角度矫正模型、文本框检测模型以及文本识别模型对待测文本图像进行文本检测识别。

本发明实施例再一方面提供一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例所述方法的步骤。

本发明实施例的文本检测识别方法、系统及计算机设备，首先建立了角度矫正模型，用于对图像进行角度调整，使得在进行文本检测识别之间，图像处于统一设定的，从而避免角度的偏转对于文本定位的影响。在建立文本框检测模型时，没有直接运用管网提供的锚框，而是通过K-means聚类算法从样本图像集中，计算出锚框，从而使得计算的锚框与检测目标文本框更接近，差别更小，从而降低了对于yolo V3网络进行训练的难度的时间，提高了训练效率，从而提高整体的文本检测识别效率。

附图说明

通过附图中所示的本发明优选实施例更具体说明，本发明上述及其它目的、特征和优势将变得更加清晰。在全部附图中相同的附图标记指示相同的部分，且并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本的主旨。

图1为本发明实施例的文本检测识别方法的流程图；

图2为本发明实施例的yolo V3网络的网络结构图；

图3为本发明实施例的CRNN网络的网络结构图。

具体实施方式

下面结合附图和具体实施例对本发明技术方案作进一步的详细描述，以使本领域的技术人员可以更好的理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

如图1所示，本发明实施例提供一种文本检测识别方法，包括如下步骤：

S1、收集不同角度的样本图像构建样本图像集，对所述样本图像集中样本图像进行预处理；

S2、基于所述样本图像集对分类模型进行训练，得到角度矫正模型；

S3、将所述样本图像统一调整为标准角度，标注所述样本图像的真实文本框，采用K-means聚类算法，计算所述样本图像集的锚框，将所述样本图像、真实文本框以及所述锚框输入yolo V3网络进行训练，得到文本框检测模型；

S4、基于标注有文本框的样本图像对CRNN网络进行训练，得到文本识别模型；

S5、根据所述角度矫正模型、文本框检测模型以及文本识别模型对待测文本图像进行文本检测识别。

本发明实施例建立了角度矫正模型、文本框检测模型以及文本识别模型，其中角度矫正模型，主要是针对自然场景下，图像角度混乱的问题，对图像的角度进行调整，从而避免角度的偏转对与后续文本检测识别的影响。而文本框检测模型，主要用于对图像中文本区域进行准确、快速定位。文本识别模型，主要用于对检测到的文本区域进行文字识别。

具体的，本实施例采用yolo V3网络训练得到文本框检测模型，在训练之前先通过样本图像集基于k-means计算出符合该样本图像集的锚框尺寸，实现对锚框的针对性修正，便于后续对yolo V3网络训练时根据锚框对预测文本框进行准确选取，降低训练难度，提高训练效率，从而提高了文本检测识别的效率。

本发明提供的文本检测识别可以在yolo V3中，通过K-means聚类计算出标注样本图像集的anchor box，即锚框，通过聚类算法实现对文本所在区域预先

定义多个尺度的小型文本框对文本进行覆盖，然后通过聚类算法算法实现文本行的区域连通并使用非极大值算法过滤多余的文本框的方法进行文本小角度的修正。同时，用transformer替换CRNN算法中的Bi-LSTM，从而改进文本识别效果。

在优选实施例中，收集不同角度的样本图像构建样本图像集，具体为：

对所述样本图像集中样本图像进行预处理，具体为：

对所述样本图像进行高通滤波，以去除模糊噪声。

具体的，本实施例在收集样本图像，例如身份证图像时，先从网络中采集0、90、180、270度共四种不同的样本图像5万张，将样本图像转换为统一尺寸，224*224，同时对图像进行归一化处理。通过图像增强技术拓展样本图像类型以及数量，例如，可对样本图像进行旋转、放大、缩小等。

收集完样本图像后，针对自然场景下，图像模糊的问题，通过对图片高通滤波的操作来去模糊，结果表明，效果有所提升。

在优选实施例中，基于所述样本图像集对分类模型进行训练，得到角度矫正模型，具体为：

在收集完样本图像并进行预处理后，将样本图像输入到一个CNN分类模型（例如VGG16模型）中，调整模型参数，最终得到一个准确率较高的角度矫正模型。根据角度矫正模型的角度预测结果可将图像旋转成标准方向，标准方向一般指定为文字方向呈正向的方向。

角度矫正模型训练完成后，就可以实现对图像角度的同一调整。接下来需要建立文本框检测模型，本实施例选用yolo V3网络建立文本框检测模型，在建立文本框检测模型之间，首先采用K-means算法计算yolo V3网络所需要的锚框的参数。

在优选实施例中，采用K-means聚类算法，计算所述样本图像集的锚框，具体为：

利用K-means算法计算出符合yolo V3网络需要用到的锚框anchor boxes。利用标注工具在样本图像中标注标注框，标注工具都会产生一个包含标注框位置和类别的TXT文件，标注框表示为（xj,yj,wj,hj），（xj，yj）是标注框的中心点坐标，（wj,hj）是标注框的的宽和高，首先给定K个聚类中心点（Wi,Hi），聚类中心点的数量可根据需要识别的文本框数量确定，这里Wi、Hi分别是锚框（anchor boxes）的宽尺寸和高尺寸，计算每个标注框与每个聚类中心点的距离d=1-IOU ,将标注框分配给距离最近的聚类中心点。所有标注框分配完毕以后，对每个标注框簇重新计算聚类中心点，其实就是计算多个标注框的高的平均值和宽的平均值，重复以上步骤，直到连续两次之间的聚类中心点改变量小于设定阈值。通过该方式计算的锚框比用官网提供锚框的文本框检测效率提升2.3%。

在优选实施例中，将所述样本图像、真实文本框以及所述锚框输入yolo V3网络进行训练，得到文本框检测模型，具体为：

在基本的图像特征提取方面，本实施例中yolo V3网络采用了称之为Darknet-53的网络结构，具体如图2所示，包含了53个卷积层（Convolutional），它借鉴了残差网络residuanetwork的做法，在一些层之间设置了快捷链路，即残差组件（Residual），同时还包括池化层（Avgpool）、全连接层（Connected）以及Softmax层。图2中矩形框左侧的一列数字“1”、“2”、“8”表示矩形框内的卷积层（Convolutional），以及残差组件（Residual）的重复个数。介绍完了网络结构以后，该yolo V3网络对图像进行处理的具体细节如下，网络输入图像的大小为256*256，首先对输入图像提取特征，得到一定尺寸的特征地图（feature map），本实施例中特征地图尺寸为13*13，然后将输入图像分成13*13个网格单元（grid cell）,接着如果标注的真实文本框（groud truth）中某个文本目标的中心坐标落在哪个网格单元（grid cell）中，那么就由该网格单元（grid cell）来预测该文本目标，因为每个网格单元（grid cell）都会预测固定数量的预测文本框（bounding box），预测文本框（boundingbox）的大小和数量与锚框相同，即根据K-means算法计算出来的锚框来确定，这几个预测文本框（bounding box）中只有和真实文本框（groud truth）的IOU值最大的预测文本框（bounding box）才是用来预测该文本目标的，可以看出预测得到的输出特征地图（featuremap）有两个维度是提取到的特征的维度，13*13，还有一个维度（即深度）是B*（5*C），其中B表示每个grid cell中预测的bounding box的数量，对于yolo V3网络来说是3个，C表示bounding box的类别数，即文本目标的类别数，5表示4个坐标信息和一个指定度（objectness score）。

文本框检测模型建立完成后，需要建立文本识别模型对文本框中文本进行识别。

在优选实施例中，基于标注有文本框的样本图像对CRNN网络进行训练，得到文本识别模型，具体为：

通过对样本图像的文本框中文本进行学习，对CRNN网络的参数进行调整，得到识别效果较好的文本识别模型。

同时，本实施例针对图像中文本识别存在的字符不定长问题，提出一种基于transformer+CTC改进的CRNN文本识别网络。具体如下：

在优选实施例中，所述CRNN网络包括卷积层、循环层以及转录层；

所述卷积层用于提取所述文本框的特征序列；

CRNN网络包含三个部分，从上到下分别是，卷积层、循环层和转录层，本实施例中卷积层采用CNN19，作用是从输入图像中提取特征序列，循环层使用RNN，作用是预测从卷积层获得的特征序列的标签值分布序列，转录层使用CTC，作用是把从循环层获取的标签值分布序列进行去重整合等操作转换成最终的文本识别结果。具体的，如图3所示：第一步，对图3最下方的文本框基于CNN19进行特征提取，提取到的特征以序列方式输出，第二步，将特征序列（Feature Map）输入到transformer中，输出每个序列代表的标签值，这个标签值是一个序列，包含了可能出现所有标签值，进行softmax操作，等于每个标签值可能出现的概率，从而得到标签值分布序列，即“韦小宝”，最后一步，进行CTC操作，CTC操作主要用于解决输入特征序列与输出标签值序列的对齐问题，由于在文字识别中会出现文字不同间隔以及变形等情况，导致同一个文字有不同的表现形式。CTC针对样本集进行训练后，对文本识别结果中去掉间隔字符、去掉重复字符非常有效。

在优选实施例中，根据所述角度矫正模型、文本框检测模型以及文本识别模型对待测文本图像进行文本检测识别，具体为：

模型训练好后，就可以对待测文本图像进行自动检测识别了，检测和识别具体包含以下步骤：当接收到一个待测文本图像的时候，将待测文本图像经过高通滤波进行锐化去模糊以后，会触发角度矫正模型，角度矫正模型首先会对待测文本图像进行特征提取，对提取到的特征进行角度分类，针对角度分类不等于0的情况进行角度调整，输出一个矫正过的图像。

将矫正过的图像和采用K-means计算的锚框输入到文本框检测模型中，文本框检测模型通过一个全连接层网络对输入图像提取特征，得到一个13*13的特征地图，然后将特征地图分成13*13个grid cell，接着如果ground truth中某个目标中心落到某个gridcell中，那么就由该grid cell来预测该目标，因为每个grid cell都会预测固定数量的bounding box，那么该目标就由与ground truth的IOU值最大的bounding box来预测，最终输出目标的预测文本框的坐标值。

紧接着将目标的预测文本框的坐标值输入到文本识别模型, 文本识别模型先对文本框进行特征提取，提取到的特征是一个序列，然后将该序列输入到一个transformer中，输出每个序列代表的标签值，这个标签值也是一个序列，然后进行softmax操作，输出每个标签值的概率值。最后一步，利用CTC操作，输出预测的文本识别值以及相应的概率值，得到最后的文本识别结果。

针对文本识别模型输出的文本识别结果，还可以进一步做一些细节处理，例如，去掉一些标点符号、经常出现的错别字等。

本发明实施例还提供一种文本检测识别系统，包括角度矫正训练模块、文本框检测训练模块、文本识别训练模块以及检测识别模块；

本发明实施例提供的文本检测识别系统，用于实现文本检测识别方法，因此文本检测识别方法所具备的技术效果，文本检测识别系统同样具备，在此不再过多赘述。

本发明实施例还提供一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一实施例的方法的步骤。该计算机设备可以是可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于：可通过系统总线相互通信连接的存储器、处理器。

本实施例中，存储器(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，存储器也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card ,SMC)，安全数字(Secure Digital ,SD)卡，闪存卡(Flash Card)等。当然，存储器还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，存储器通常用于存储安装于计算机设备的操作系统和各类应用软件等。此外，存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制计算机设备的总体操作。本实施例中，处理器用于运行存储器中存储的程序代码或者处理数据，以实现上述实施例的文本检测识别方法。

本发明实施例提供的文本检测识别方法与系统及计算机设备，基于文本角度校正、yolo V3网络和CRNN网实现自然场景下文本检测识别，具有适用性广、效果好、速度快等特点，不但能够很好的解决图像倾斜问题，针对文本检测中存在的文本分布及形式多样化，文本、非文本以及小文本问题都具有很好的效果。同时，对CRNN网络进行改进，非常好的解决了自然场景下长文本问题，大大的提高了文本识别效果，从而提升了智能图片审核的敏捷性和智能性。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种文本检测识别方法，其特征在于，包括如下步骤：

根据所述角度矫正模型、文本框检测模型以及文本识别模型对待测文本图像进行文本检测识别；

将所述样本图像、真实文本框以及所述锚框输入yolo V3网络进行训练，得到文本框检测模型，具体为：

2.根据权利要求1所述的文本检测识别方法，其特征在于，收集不同角度的样本图像构建样本图像集，具体为：

对所述样本图像集中样本图像进行预处理，具体为：

对所述样本图像进行高通滤波，以去除模糊噪声。

3.根据权利要求1所述的文本检测识别方法，其特征在于，基于所述样本图像集对分类模型进行训练，得到角度矫正模型，具体为：

4.根据权利要求1所述的文本检测识别方法，其特征在于，采用K-means聚类算法，计算所述样本图像集的锚框，具体为：

5.根据权利要求1所述的文本检测识别方法，其特征在于，基于标注有文本框的样本图像对CRNN网络进行训练，得到文本识别模型，具体为：

6.根据权利要求5所述的文本检测识别方法，其特征在于，所述CRNN网络包括卷积层、循环层以及转录层；

所述卷积层用于提取所述文本框的特征序列；

7.根据权利要求1所述的文本检测识别方法，其特征在于，根据所述角度矫正模型、文本框检测模型以及文本识别模型对待测文本图像进行文本检测识别，具体为：

8.一种文本检测识别系统，其特征在于，包括角度矫正训练模块、文本框检测训练模块、文本识别训练模块以及检测识别模块；

9.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。