CN111898570A

CN111898570A - 基于双向特征金字塔网络的图像中文本识别方法

Info

Publication number: CN111898570A
Application number: CN202010776222.8A
Authority: CN
Inventors: 刘聪; 许莉娟; 阳程; 徐友武; 安晶; 刘元珍
Original assignee: Yancheng Institute of Technology
Current assignee: Yancheng Institute of Technology
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2020-11-06

Abstract

本发明公开了一种基于双向特征金字塔网络的图像中文本识别方法，将待识别图像输入预训练模型，获取预训练模型输出的不同尺度的四个层次特征，利用双向特征金字塔网络，双向充分融合所述的四个尺度层次特征，融合得到更为优化的特征，以融合所得特征的基础上检测和识别所述待识别图像的文本。双向特征金字塔网络充分融合和利用多个尺度层次的特征，对待识别图像中各种不同尺寸的文本都能更好的识别，提高模型文本识别的准确率和鲁棒性。

Description

基于双向特征金字塔网络的图像中文本识别方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于双向特征金字塔网络的图像中文本识别方法。

背景技术

图像中文本识别，有着广泛的应用场景和需求。大数据时代，每天都产生海量的数据，其中大部分数据是以视频或者图片的形式存在。视频也可看作由一帧帧的图像组成。许多图像中包含需要识别的有意义有价值的文字，比如图像中汽车车牌号，交通路牌中的文字，产品部件表面或者包装上的文字识别等。许多应用场景中图像拍摄角度和距离有很大的随意性，导致图像中的文本的位置、大小、角度、清晰程度有很大的差异，目前的各种识别方法的文本识别精度不高。传统方案通常使用预训练的模型得到单层次输出特征，然后在单层次输出特征上进行文本识别，所确定的文本信息往往存在准确度低的问题。

发明内容

针对以上问题，本发明提出一种基于双向特征金字塔网络的图像中文本识别方法，利用双向特征金字塔网络，充分融合和利用多个尺度层次的特征，从而对图片中各种不同尺寸的文本都能更好的识别，从而提高模型文本识别的精度和鲁棒性。

为实现本发明的目的，提供一种基于双向特征金字塔网络的图像中文本识别方法，包括如下步骤：

S10，将待识别图像输入预训练模型，获取预训练模型输出的第一层次特征、第二层次特征、第三层次特征和第四层次特征等不同尺度层次特征；所述预训练模型为提取图像多个尺度层次特征的网络模型；所述第一层次特征、第二层次特征、第三层次特征和第四层次特征的尺度依次减小；

S20，融合所述第一层次特征、第二层次特征、第三层次特征和第四层次特征，得到融合后的新有效特征；

S30，在融合后的新有效特征基础上检测和识别所述待识别图像中的文本。

在一个实施例中，所述第一层次特征的尺寸为待识别图像尺寸的1/4，称为1/4尺度图像；所述第二层次特征的尺寸为待识别图像尺寸的1/8，称为1/8尺度图像；所述第三层次特征的尺寸为待识别图像尺寸的1/16，称为1/16尺度图像；所述第四层次特征的尺寸为待识别图像尺寸的1/32；称为1/32尺度图像。

具体地，所述融合所述第一层次特征、第二层次特征、第三层次特征和第四层次特征，得到融合后的新有效特征包括：

S21，将1/32尺度图像的尺寸放大到待识别图像的1/16后，和1/16尺度图像进行融合，得到该次融合过程中的1/16尺度图像；将该次融合过程中的1/16尺度图像放大到待识别图像的1/8的尺度后，和1/8尺度图像融合，得到该次融合过程中的1/8尺度图像；将该次融合过程中的1/8尺度图像放大到待识别的图像1/4后，和1/4尺度图像融合，得到该次融合过程中的1/4尺度图像，以完成一次融合，融合次数加一；所述融合次数的初始值为0；

S22，将上一次融合过程中的1/4尺度图像的尺寸缩小到待识别图像的1/8后，和上次融合过程中的1/8尺度图像融合，得到该次融合过程中的1/8尺度图像；将该次融合过程中的1/8尺度图像的尺寸缩小到待识别图像的1/16后，和上次融合过程中的1/16尺度图像融合，得到该次融合过程中的1/16尺度图像；将该次融合过程中的1/16尺度图像的尺寸缩小到待识别图像的1/32后，和上次融合过程中的1/32尺度图像融合，得到该次融合过程中的1/32尺度图像，以完成一次融合，融合次数加一；

S23，将上一次融合过程中的1/32尺度图像的尺寸放大到待识别图像的1/16后，和和上次融合过程中的1/16尺度图像进行融合，得到该次融合过程中的1/16尺度图像；将该次融合过程中的1/16尺度图像放大到待识别图像的1/8的尺度后，和上次融合过程中的1/8尺度图像融合，得到该次融合过程中的1/8尺度图像；将该次融合过程中的1/8尺度图像放大到待识别的图像1/4后，和和上次融合过程中的1/4尺度图像融合，得到该次融合过程中的1/4尺度图像，以完成一次融合，融合次数加一；

S23，返回执行步骤S22，直至在得到新的1/32尺度图像时，融合次数大于或者等于预设次数；

S24，将最终得到的1/32尺度图像确定为新有效特征。

上述基于双向特征金字塔网络的图像中文本识别方法，将待识别图像输入预训练模型，获取预训练模型输出的第一层次特征、第二层次特征、第三层次特征和第四层次特征，融合所述第一层次特征、第二层次特征、第三层次特征和第四层次特征，得到融合后的新有效特征，以根据新有效特征识别所述待识别图像的文本，可以利用双向特征金字塔网络，充分融合和利用多个尺度层次的特征，对待识别图像中各种不同尺寸的文本都能更好的识别，提高模型文本识别的精度和鲁棒性，从而文本识别结果的准确性。

附图说明

图1是一个实施例的基于双向特征金字塔网络的图像中文本识别方法流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

参考图1所示，图1为一个实施例的基于双向特征金字塔网络的图像中文本识别方法流程图，包括如下步骤：

S10，将待识别图像输入预训练模型，获取预训练模型输出的第一层次特征、第二层次特征、第三层次特征和第四层次特征；所述预训练模型为提取图像多个尺度层次特征的网络模型；所述第一层次特征、第二层次特征、第三层次特征和第四层次特征的尺度依次减小。

上述预训练模型可以为ResNet或者EfficientNet等网络模型，去除最后的全连接输出层后所得到的模型。

在一个实施例中，所述预训练模型包括ResNet、或EfficientNet等。

本实施例可以通过现有的各种ImageNet上的预训练模型，提取图像的多个尺度层次特征。这些多尺度层次的特征，其大小依次减小，类似于金字塔，所以称为特征金字塔。可采用ResNet，EfficientNet等各种预训练模型，去除最后的全连接输出层。这些模型的大小和计算量，特征的丰富程度各有差别，可在计算量需求和精度上权衡取一个合适的模型。通常情况下ResNet50是一个比较好的折衷。这些预训练模型的输入是一幅图像，输出是模型中各个尺度层次的特征。比如ResNet50，输入图像后，输出得到中间四个尺度层次的特征，分别是原图像尺寸的1/4，1/8，1/16，1/32大小。现有的深度学习模型一般只取最后一层特征，即原图1/32大小尺度的特征，在此基础上进行图像中的文本检测和识别。

S20，融合所述第一层次特征、第二层次特征、第三层次特征和第四层次特征，得到融合后的新有效特征。

S24，将最终得到的1/32尺度图像确定为新有效特征。

上述预设次数可以依据文本识别的精度设置。

本实施例可以形成双向特征金字塔网络，着眼于将不同尺度的特征进行有效融合。以ResNet50为例，是将上一步骤的1/4，1/8，1/16，1/32尺度的特征进行融合。本发明采用的双向特征金字塔网络中的信息流动是双向的，并且可进行多个循环，使输出特征更为高效。首先是自上而下的融合，然后方向反过来，进行自下而上的融合，如此循环往复多次。具体过程为，首先1/32尺度的特征放大到1/16尺度，并和1/16尺度特征进行融合，得到一个新的1/16的特征；然后这个新的1/16的特征放大到1/8的尺度，并和1/8尺度的特征融合，得到新的1/8尺度的特征；然后这个新特征放大并和1/4特征融合，得到新的1/4特征，然后缩小为1/8特征，和前一步新得到的1/8特征融合。依此类推。

在一个示例中，当融合不同分辨率的特征时，比如融合上一步1/32和1/16尺度的特征，常用的方法是缩放到同样的分辨率并加起来。由于这些特征有着不同的分辨率，它们对于输出特征的作用不是完全平等的。所以给予每个输入特征一个权重，让网络学习各个输入特征的重要性。使用权重标准化的融合

上述双向特征金字塔网络的双向特征融合可根据输入图片的大小和应用的需求，循环往复进行多次，以取得更为优化的输出特征。最终得到的特征尺度一般为1/32尺度的特征，这个特征经过双向融合，更加清晰的包括了其它尺度特征中的有用信息。

本实施例采用双向特征金字塔网络，采用了在多个尺度上的特征。并且将这些特征从底层到高层，从高层到低层，双向循环往复的精炼特征。将这些不同尺度和文本相关的特征找出，并且在这个过程中不断的精炼融合，从而准确的检测并识别出图像中各个位置的各种可能大小的文本。通过双向特征金字塔网络，通过有机双向融合各个尺度特征，不但提高了将各种大小尺度文本检测出来的精度，减少误检测或少检测的错误，并且大幅提高这些文本识别的准确率。

在一个实施例中，所述在融合后的新有效特征基础上检测和识别所述待识别图像中的文本包括：

对所述新有效特征各个位置的特征进行分析，判断各个位置是否存在文本，并对存在文本的位置进行文本识别。

本实施例可以根据上面步骤的输出特征，对图片中的文字进行检测和识别。具体是对各个位置的特征进行分析，判断是否文本及识别，并输出。经过双向特征金字塔网络融合优化的特征，可明显的提高文本检测和识别的准确率。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

需要说明的是，本申请实施例所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换，以使这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

本申请实施例的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于双向特征金字塔网络的图像中文本识别方法，其特征在于，包括如下步骤：

S10，将待识别图像输入预训练模型，获取预训练模型输出的第一层次特征、第二层次特征、第三层次特征和第四层次特征；所述预训练模型为提取图像多个尺度层次特征的网络模型；所述第一层次特征、第二层次特征、第三层次特征和第四层次特征的尺度依次减小；

2.根据权利要求1所述的基于双向特征金字塔网络的图像中文本识别方法，其特征在于，所述第一层次特征的尺寸为待识别图像尺寸的1/4，称为1/4尺度图像；所述第二层次特征的尺寸为待识别图像尺寸的1/8，称为1/8尺度图像；所述第三层次特征的尺寸为待识别图像尺寸的1/16，称为1/16尺度图像；所述第四层次特征的尺寸为待识别图像尺寸的1/32；称为1/32尺度图像。

3.根据权利要求2所述的基于双向特征金字塔网络的图像中文本识别方法，其特征在于，所述融合所述第一层次特征、第二层次特征、第三层次特征和第四层次特征，得到融合后的新有效特征包括：

S23，将上一次融合过程中的1/32尺度图像的尺寸放大到待识别图像的1/16后，和

和上次融合过程中的1/16尺度图像进行融合，得到该次融合过程中的1/16尺度图像；

将该次融合过程中的1/16尺度图像放大到待识别图像的1/8的尺度后，和上次融合过程中的1/8尺度图像融合，得到该次融合过程中的1/8尺度图像；将该次融合过程中的1/8尺度图像放大到待识别的图像1/4后，和和上次融合过程中的1/4尺度图像融合，得到该次融合过程中的1/4尺度图像，以完成一次融合，融合次数加一；

S24，将最终得到的1/32尺度图像确定为新有效特征。