CN111144411B - 一种基于显著图的不规则文本修正与识别方法及系统 - Google Patents

一种基于显著图的不规则文本修正与识别方法及系统 Download PDF

Info

Publication number
CN111144411B
CN111144411B CN201911373170.3A CN201911373170A CN111144411B CN 111144411 B CN111144411 B CN 111144411B CN 201911373170 A CN201911373170 A CN 201911373170A CN 111144411 B CN111144411 B CN 111144411B
Authority
CN
China
Prior art keywords
network
text
irregular
saliency map
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911373170.3A
Other languages
English (en)
Other versions
CN111144411A (zh
Inventor
尤晶晶
李武军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Heguang Intelligent Manufacturing Research Institute Co ltd
Nanjing University
Original Assignee
Nanjing Heguang Intelligent Manufacturing Research Institute Co ltd
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Heguang Intelligent Manufacturing Research Institute Co ltd, Nanjing University filed Critical Nanjing Heguang Intelligent Manufacturing Research Institute Co ltd
Priority to CN201911373170.3A priority Critical patent/CN111144411B/zh
Publication of CN111144411A publication Critical patent/CN111144411A/zh
Application granted granted Critical
Publication of CN111144411B publication Critical patent/CN111144411B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于显著图的不规则文本修正与识别方法及系统,将不规则文本图片输入至预先训练好的不规则文本修正网络模型,输出字符级别的分类显著图;利用条状区域变换算法对不规则文本图片和分类显著图进行修正,输出修正图片;将修正图片输入至预先训练好的不规则文本识别网络模型,输出文本图片识别信息。优点:通过训练好的不规则文本修正网络模型,条状区域变换算法,训练好的不规则文本识别网络模型,对不规则文本图片进行处理,提高了不规则文本识别的准确率和鲁棒性。

Description

一种基于显著图的不规则文本修正与识别方法及系统
技术领域
本发明涉及一种基于显著图的不规则文本修正与识别方法及系统,属于自然场景文本识别技术领域。
背景技术
近年来,自然场景文本识别已经成为计算机视觉的研究热点,其输入是文本图片,输出是图片中的文本信息。自然场景文本识别在自动驾驶、图片检索、证件识别、集装箱箱号识别等领域都有重要的应用。自然场景文本识别主要可以分为两类:规则文本识别与不规则文本识别。规则文本为水平文本,不规则文本为倾斜文本、曲形文本、透视扭曲文本等。不规则文本在很多场景中都有出现,比如瓶盖、商标等。目前多数文本识别方法都只能对规则文本进行识别,对于不规则文本,如曲形文本、倾斜文本等,识别效果依旧很差。
以前的不规则文本识别方法主要使用语义分割的方法来对不规则文本进行识别,这种方法虽然能很好的捕获文本的位置信息,但是其没有考虑字符之间的关联信息,所以识别效果比较差。还有一类方法先将不规则文本修正成规则文本,然后再对修正后的规则文本进行识别,在该种方法中,一般使用薄板样条插值来对其进行修正,但是由于其难以训练,对参数敏感,所以该种方法依旧不能很好的识别不规则文本。
发明内容
本发明所要解决的技术问题是克服目前已有的不规则文本识别方法依旧不能很好的识别不规则文本、识别准确率低的缺陷,提供一种基于显著图的不规则文本修正与识别方法及系统。
为解决上述技术问题,本发明提供一种基于显著图的不规则文本修正与识别方法,其特征在于,
将不规则文本图片输入至预先训练好的不规则文本修正网络模型,输出字符级别的分类显著图;
利用条状区域变换算法对不规则文本图片和分类显著图进行修正,输出修正图片;
将修正图片输入至预先训练好的不规则文本识别网络模型,输出文本图片识别信息。
进一步的,所述不规则文本修正网络模型的结构采用全卷积神经网络,将不规则文本图片输入到全卷积神经网络中提取不同尺度、不同深度的特征,采取U型网络结构对不同尺度、不同深度的特征进行特征融合,得到字符级别的分类显著图。
进一步的,所述不规则文本修正网络模型的训练过程为:
对不规则文本修正网络模型的参数进行初始化;获取训练文本图片及真实分类显著图标签;将训练文本图片输入到不规则修正网络模型中,得到预测显著图;根据预测显著图和真实分类显著图标签计算网络损失,根据损失更新修正网络参数;不断重复以上过程,直到达到一定轮数,训练结束,保存修正网络参数。
进一步的,所述条状区域变换算法的步骤为:
步骤101,输入不规则文本图片、分类显著图,不规则文本图片的宽W及高H;
步骤102,二值化分类显著图,求取分类显著图连通区域的中心点集C与平均高度havg
步骤103,根据中心点集C拟合文本中心线L;
步骤104,初始化变换坐标集合循环变量i=1;
步骤105,根据i计算中心线当前坐标点pi以及垂线Vi
步骤106,求取垂线Vi上点和/>的坐标,其中/>和/>与pi距离为havg
步骤107,对和/>进行线性插值,插值数为H,得到当前位置变换坐标集合Pi,将Pi加入到G中;
步骤108,如果i≤W,则i=i+1,转步骤105,否则转步骤109;
步骤109,根据变换坐标集合G对I变换,得到修正图片;
步骤110,输出修正图片。
进一步的,所述不规则文本识别网络模型的结构包括编码网络和解码网络;
所述编码网络包括两层卷积层,三层门控循环卷积层,两层双向长短期记忆网络和四层最大值池化层;
所述解码网络包括一层长短期记忆网络和一层基于注意力机制的长短期记忆网络;
所述解码网络将编码网络部分的输出作为输入,在每个时刻,解码网络都预测一个字符,一直到输出终止符为止。
进一步的,所述不规则文本识别网络模型的训练过程为:
将不规则文本识别网络模型的参数进行初始化;获取训练文本图片及真实字符串标签;将训练文本图片输入到不规则文本识别网络中,根据网络预测值和真实字符串标签计算网络损失,根据损失更新识别网络参数;不断重复以上过程,直到达到一定轮数,训练结束,保存识别网络参数。
一种基于显著图的不规则文本修正与识别系统,包括第一输出模块、第二输出模块和第三输出模块;
所述第一输出模块,用于将不规则文本图片输入至预先训练好的不规则文本修正网络模型,输出字符级别的分类显著图;
所述第二输出模块,用于利用条状区域变换算法对不规则文本图片和分类显著图进行修正,输出修正图片;
所述第三输出模块,用于将修正图片输入至预先训练好的不规则文本识别网络模型,输出文本图片识别信息。
进一步的,所述第一输出模块包括第一初始化模块、第一数据获取模块、第一修正模块和第一循环模块;
所述第一初始化模块,用于对不规则文本修正网络模型的参数进行初始化;
所述第一数据获取模块,获取训练文本图片及真实分类显著图标签;
所述第一修正模块,用于将训练文本图片输入到不规则修正网络模型中,得到预测显著图;根据预测显著图和真实分类显著图标签计算网络损失,根据损失更新修正网络参数;
所述第一循环模块,用于不断重复以上过程,直到达到一定轮数,训练结束,保存修正网络参数。
进一步的,所述第三输出模块包括编码网络模块和解码网络模块;
所述编码网络模块包括两层卷积层,三层门控循环卷积层,两层双向长短期记忆网络和四层最大值池化层;
所述解码网络模块包括一层长短期记忆网络和一层基于注意力机制的长短期记忆网络;
所述解码网络模块将编码网络模块的输出作为输入,在每个时刻,解码网络都预测一个字符,一直到输出终止符为止。
进一步的,所述第三输出模块包括第三初始化模块、第三数据获取模块、第三修正模块和第三循环模块;
所述第三初始化模块,用于将不规则文本识别网络模型的参数进行初始化;
所述第三数据获取模块,用于获取训练文本图片及真实字符串标签;
所述第三修正模块,用于将训练文本图片输入到不规则文本识别网络中,根据网络预测值和真实字符串标签计算网络损失,根据损失更新识别网络参数;
所述第三循环模块,用于不断重复以上过程,直到达到一定轮数,训练结束,保存识别网络参数。
本发明所达到的有益效果:
与现有技术相比,本发明提供的基于显著图的不规则文本修正与识别方法,通过不规则文本修正网络构建,条状区域变换算法,不规则文本识别网络构建,不规则文本修正与识别网络训练,提高了不规则文本识别的准确率和鲁棒性。
附图说明
图1为自然场景下不规则文本示意图;
图2为本发明实施的基于显著图的不规则文本修正网络结构图;
图3a为不规则文本图;
图3b为分类显著图;
图3c为字符外接四边形与中心点示意图;
图3d为文本中心线示意图;
图3e为变换坐标示意图;
图3f为修正后的文本图;
图4为本发明实施的基于显著图的条状区域变换算法流程图;
图5为本发明实施的基于显著图的不规则文本修正网络训练流程图;
图6为本发明实施的基于显著图的不规则文本识别网络训练流程图;
图7为本发明实施的基于显著图的不规则文本修正与识别方法的预测流程图;
图8为本发明实施的基于显著图的不规则文本修正算法效果图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
一种基于显著图的不规则文本修正与识别方法,主要分为基于显著图的不规则文本修正网络构建部分,基于显著图的条状区域变换算法部分,基于显著图的不规则文本识别网络构建部分,基于显著图的不规则文本修正网络训练部分,基于显著图的不规则文本识别网络训练部分,以及基于显著图的不规则文本修正与识别方法的预测过程部分。
图1为自然场景下不规则文本示意图。相比于规则文本图片,不规则文本图片包含更多的背景信息,更难识别。
图2为本发明实施的基于显著图的不规则文本修正网络结构图。该网络模型分为两阶段:左侧为特征提取阶段,右侧为特征融合阶段。对于输入图片,首先将其输入到全卷积神经网络中进行特征提取,对于提取出的不同尺度、不同深度的特征表示,采取U型网络结构对不同尺度、不同深度的特征进行特征融合,最后得到通道数为1的分类显著图。对于图像中位置p,显著图中该位置的值s(p)表明该点为字符区域的分类得分,若为字符区域,则s(p)值为1,否则为0。
图3a-图3f为本发明实施的基于显著图的条状区域变换算法步骤示意图,图4为本发明实施的基于显著图的条状区域变换算法流程图。算法的输入为原始图片I、修正网络预测的分类显著图S和原始图片宽W及高H,输出为修正后的文本图片。算法流程描述如下:首先对不规则文本图,如图3a进行二值化,如图3b,求取显著图连通区域的中心点集C与平均高度havg;然后根据中心点集C拟合文本的中心线L,如图3d;对于中心线上的每个点,从左到右依次求取当前坐标点pi以及垂线Vi,i∈[1,W],求取垂线Vi上点和/>(/>和/>与pi距离为havg)的坐标,对/>和/>进行线性插值(插值数为H),得到当前位置变换坐标集合Pi,将所有位置的变换坐标集合组合得到集合G,如图3e;最后根据变换坐标集合对原始图片I进行双线性插值得到修正后的图片,如图3f。
表1为本发明实施的基于显著图的不规则文本识别网络结构,为13层网络结构,其由编码网络和解码网络组成。编码网络位于前11层,由两层卷积层,三层门控循环卷积层,两层双向长短期记忆网络和四层最大值池化层组成,具体所在层数如下表所述。对于输入图像,编码网络用来对网络的特征进行编码,捕获图像的语义信息。解码网络为后两层,由一层长短期记忆网络和一层基于注意力机制的长短期记忆网络组成,具体所在层数如下表所述,解码网络将编码网络部分的输出作为输入,在每个时刻,解码网络都预测一个字符,一直到输出终止符为止。
表1:
图5为本发明实施的基于显著图的不规则文本修正网络训练流程图。在训练开始时,首先对不规则文本修正网络参数进行初始化;将训练文本图片及真实分类显著图标签输入到训练平台;然后将图片输入到不规则文本修正网络中,得到预测显著图;根据预测显著图和真实显著图计算网络损失,根据损失更新修正网络参数。不断重复以上过程,直到达到一定轮数,训练结束,保存修正网络参数。
具体训练步骤为:
步骤201,初始化不规则文本修正网络框架参数;
步骤202,输入文本图片及真实显著图标签至数据处理平台;
步骤203,使用文本图片及真实显著图标签作为监督信息对不规则文本修正网络进行训练;
步骤204,保存训练好的不规则文本修正网络框架和网络参数至数据平台存储系统。
图6为本发明实施的基于显著图的不规则文本识别网络训练流程图。训练过程描述如下:在训练开始时,首先对不规则文本识别网络参数进行初始化;将训练文本图片及真实字符串标签输入到训练平台;然后将图片输入到不规则文本识别网络中,根据网络预测值和真实字符串信息计算网络损失,根据损失更新识别网络参数。不断重复以上过程,直到达到一定轮数,训练结束,保存识别网络参数。
具体训练步骤为:
步骤301,初始化不规则文本识别网络框架参数;
步骤302,输入文本图片及真实字符串标签至数据处理平台;
步骤303,使用文本图片及真实字符串标签作为监督信息对不规则文本识别网络进行训练;
步骤304,保存训练好的不规则文本识别网络框架和网络参数至数据平台存储系统。
图7为本发明实施的基于显著图的不规则文本修正与识别方法的预测流程图。具体流程如下:首先读取保存的不规则文本修正网络和识别网络的网络框架和网络参数;接着输入要预测的文本图片至数据处理平台;然后将文本图片输入到不规则文本修正网络,得到字符级别的分类显著图信息;根据分类显著图使用条状区域变换算法对文本进行修正,得到修正后的文本图片;最后将修正后的文本图片输入到识别网络中进行识别,输出文本图片识别信息。
图8为本发明实施的基于显著图的不规则文本修正算法效果图。其中第一列为原始输入图片;第二列为修正网络预测的分类显著图;第三列变换坐标示意图;第四列为修正后图片。
相应的,本发明提供一种基于显著图的不规则文本修正与识别系统,包括第一输出模块、第二输出模块和第三输出模块;
所述第一输出模块,用于将不规则文本图片输入至预先训练好的不规则文本修正网络模型,输出字符级别的分类显著图;
所述第二输出模块,用于利用条状区域变换算法对不规则文本图片和分类显著图进行修正,输出修正图片;
所述第三输出模块,用于将修正图片输入至预先训练好的不规则文本识别网络模型,输出文本图片识别信息。
进一步的,所述第一输出模块包括第一初始化模块、第一数据获取模块、第一修正模块和第一循环模块;
所述第一初始化模块,用于对不规则文本修正网络模型的参数进行初始化;
所述第一数据获取模块,获取训练文本图片及真实分类显著图标签;
所述第一修正模块,用于将训练文本图片输入到不规则修正网络模型中,得到预测显著图;根据预测显著图和真实分类显著图标签计算网络损失,根据损失更新修正网络参数;
所述第一循环模块,用于不断重复以上过程,直到达到一定轮数,训练结束,保存修正网络参数。
进一步的,所述第三输出模块包括编码网络模块和解码网络模块;
所述编码网络模块包括两层卷积层,三层门控循环卷积层,两层双向长短期记忆网络和四层最大值池化层;
所述解码网络模块包括一层长短期记忆网络和一层基于注意力机制的长短期记忆网络;
所述解码网络模块将编码网络模块的输出作为输入,在每个时刻,解码网络都预测一个字符,一直到输出终止符为止。
进一步的,所述第三输出模块包括第三初始化模块、第三数据获取模块、第三修正模块和第三循环模块;
所述第三初始化模块,用于将不规则文本识别网络模型的参数进行初始化;
所述第三数据获取模块,用于获取训练文本图片及真实字符串标签;
所述第三修正模块,用于将训练文本图片输入到不规则文本识别网络中,根据网络预测值和真实字符串标签计算网络损失,根据损失更新识别网络参数;
所述第三循环模块,用于不断重复以上过程,直到达到一定轮数,训练结束,保存识别网络参数。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种基于显著图的不规则文本修正与识别方法,其特征在于,
将不规则文本图片输入至预先训练好的不规则文本修正网络模型,输出字符级别的分类显著图;
所述不规则文本修正网络模型的结构采用全卷积神经网络,将不规则文本图片输入到全卷积神经网络中提取不同尺度、不同深度的特征,采取U型网络结构对不同尺度、不同深度的特征进行特征融合,得到字符级别的分类显著图;
利用条状区域变换算法对不规则文本图片和分类显著图进行修正,输出修正图片;所述条状区域变换算法的步骤为:
步骤101,输入不规则文本图片、分类显著图,不规则文本图片的宽W及高H;
步骤102,二值化分类显著图,求取分类显著图连通区域的中心点集C与平均高度havg
步骤103,根据中心点集C拟合文本中心线L;
步骤104,初始化变换坐标集合循环变量i=1;
步骤105,根据i计算中心线当前坐标点pi以及垂线Vi
步骤106,求取垂线Vi上点和/>的坐标,其中/>和/>与pi距离为havg
步骤107,对和/>进行线性插值,插值数为H,得到当前位置变换坐标集合Pi,将Pi加入到G中;
步骤108,如果i≤W,则i=i+1,转步骤105,否则转步骤109;
步骤109,根据变换坐标集合G对I变换,得到修正图片,I表示原始图片;
步骤110,输出修正图片;
将修正图片输入至预先训练好的不规则文本识别网络模型,输出文本图片识别信息;所述不规则文本识别网络模型的结构包括编码网络和解码网络;
所述编码网络包括两层卷积层,三层门控循环卷积层,两层双向长短期记忆网络和四层最大值池化层;
所述解码网络包括一层长短期记忆网络和一层基于注意力机制的长短期记忆网络;
所述解码网络将编码网络部分的输出作为输入,在每个时刻,解码网络都预测一个字符,一直到输出终止符为止。
2.根据权利要求1所述的基于显著图的不规则文本修正与识别方法,其特征在于,所述不规则文本修正网络模型的训练过程为:
对不规则文本修正网络模型的参数进行初始化;获取训练文本图片及真实分类显著图标签;将训练文本图片输入到不规则修正网络模型中,得到预测显著图;根据预测显著图和真实分类显著图标签计算网络损失,根据损失更新修正网络参数;不断重复以上过程,直到达到一定轮数,训练结束,保存修正网络参数。
3.根据权利要求1所述的基于显著图的不规则文本修正与识别方法,其特征在于,所述不规则文本识别网络模型的训练过程为:
将不规则文本识别网络模型的参数进行初始化;获取训练文本图片及真实字符串标签;将训练文本图片输入到不规则文本识别网络模型中,得到网络预测值;根据网络预测值和真实字符串标签计算网络损失,根据损失更新识别网络参数;不断重复以上过程,直到达到一定轮数,训练结束,保存识别网络参数。
4.一种基于显著图的不规则文本修正与识别系统,其特征在于,包括第一输出模块、第二输出模块和第三输出模块;
所述第一输出模块,用于将不规则文本图片输入至预先训练好的不规则文本修正网络模型,输出字符级别的分类显著图;所述不规则文本修正网络模型的结构采用全卷积神经网络,将不规则文本图片输入到全卷积神经网络中提取不同尺度、不同深度的特征,采取U型网络结构对不同尺度、不同深度的特征进行特征融合,得到字符级别的分类显著图;
所述第二输出模块,用于利用条状区域变换算法对不规则文本图片和分类显著图进行修正,输出修正图片;
所述第三输出模块,用于将修正图片输入至预先训练好的不规则文本识别网络模型,输出文本图片识别信息;
所述条状区域变换算法的步骤为:
步骤101,输入不规则文本图片、分类显著图,不规则文本图片的宽W及高H;
步骤102,二值化分类显著图,求取分类显著图连通区域的中心点集C与平均高度havg
步骤103,根据中心点集C拟合文本中心线L;
步骤104,初始化变换坐标集合循环变量i=1;
步骤105,根据i计算中心线当前坐标点pi以及垂线Vi
步骤106,求取垂线Vi上点和/>的坐标,其中/>和/>与pi距离为havg
步骤107,对和/>进行线性插值,插值数为H,得到当前位置变换坐标集合Pi,将Pi加入到G中;
步骤108,如果i≤W,则i=i+1,转步骤105,否则转步骤109;
步骤109,根据变换坐标集合G对I变换,得到修正图片,I表示原始图片;
步骤110,输出修正图片;
所述不规则文本识别网络模型的结构包括编码网络和解码网络;
所述编码网络包括两层卷积层,三层门控循环卷积层,两层双向长短期记忆网络和四层最大值池化层;
所述解码网络包括一层长短期记忆网络和一层基于注意力机制的长短期记忆网络;
所述解码网络将编码网络部分的输出作为输入,在每个时刻,解码网络都预测一个字符,一直到输出终止符为止。
5.根据权利要求4所述的基于显著图的不规则文本修正与识别系统,其特征在于,所述第一输出模块包括第一初始化模块、第一数据获取模块、第一修正模块和第一循环模块;
所述第一初始化模块,用于对不规则文本修正网络模型的参数进行初始化;
所述第一数据获取模块,获取训练文本图片及真实分类显著图标签;
所述第一修正模块,用于将训练文本图片输入到不规则修正网络模型中,得到预测显著图;根据预测显著图和真实分类显著图标签计算网络损失,根据损失更新修正网络参数;
所述第一循环模块,用于不断重复更新修正网络参数的过程,直到达到一定轮数,训练结束,保存修正网络参数。
6.根据权利要求4所述的基于显著图的不规则文本修正与识别系统,其特征在于,所述第三输出模块包括第三初始化模块、第三数据获取模块、第三修正模块和第三循环模块;
所述第三初始化模块,用于将不规则文本识别网络模型的参数进行初始化;
所述第三数据获取模块,用于获取训练文本图片及真实字符串标签;
所述第三修正模块,用于将训练文本图片输入到不规则文本识别网络模型中,得到网络预测值;根据网络预测值和真实字符串标签计算网络损失,根据损失更新识别网络参数;
所述第三循环模块,用于不断重复更新识别网络参数的过程,直到达到一定轮数,训练结束,保存识别网络参数。
CN201911373170.3A 2019-12-27 2019-12-27 一种基于显著图的不规则文本修正与识别方法及系统 Active CN111144411B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911373170.3A CN111144411B (zh) 2019-12-27 2019-12-27 一种基于显著图的不规则文本修正与识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911373170.3A CN111144411B (zh) 2019-12-27 2019-12-27 一种基于显著图的不规则文本修正与识别方法及系统

Publications (2)

Publication Number Publication Date
CN111144411A CN111144411A (zh) 2020-05-12
CN111144411B true CN111144411B (zh) 2024-02-27

Family

ID=70521091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911373170.3A Active CN111144411B (zh) 2019-12-27 2019-12-27 一种基于显著图的不规则文本修正与识别方法及系统

Country Status (1)

Country Link
CN (1) CN111144411B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111861731A (zh) * 2020-07-31 2020-10-30 重庆富民银行股份有限公司 基于ocr的贷后检查系统及方法
CN113065406B (zh) * 2021-03-08 2022-11-11 国网河北省电力有限公司 一种基于编解码结构识别发票文本的报账智能平台
CN113139545B (zh) * 2021-05-08 2023-07-18 金陵科技学院 一种弯曲文字矫正方法、存储介质和电子装置
CN115471831B (zh) * 2021-10-15 2024-01-23 中国矿业大学 一种基于文本增强学习的图像显著性检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106373126A (zh) * 2016-09-04 2017-02-01 河北工业大学 基于融合类测地线和边界对比的图像显著性检测方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110378334A (zh) * 2019-06-14 2019-10-25 华南理工大学 一种基于二维特征注意力机制的自然场景文本识别方法
CN110427938A (zh) * 2019-07-26 2019-11-08 中科视语(北京)科技有限公司 一种基于深度学习的不规则文字识别装置和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10699151B2 (en) * 2016-06-03 2020-06-30 Miovision Technologies Incorporated System and method for performing saliency detection using deep active contours

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106373126A (zh) * 2016-09-04 2017-02-01 河北工业大学 基于融合类测地线和边界对比的图像显著性检测方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110378334A (zh) * 2019-06-14 2019-10-25 华南理工大学 一种基于二维特征注意力机制的自然场景文本识别方法
CN110427938A (zh) * 2019-07-26 2019-11-08 中科视语(北京)科技有限公司 一种基于深度学习的不规则文字识别装置和方法

Also Published As

Publication number Publication date
CN111144411A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN111144411B (zh) 一种基于显著图的不规则文本修正与识别方法及系统
CN111723585B (zh) 一种风格可控的图像文本实时翻译与转换方法
CN110363252B (zh) 趋向于端到端的场景文字检测与识别方法以及系统
WO2018103608A1 (zh) 一种文字检测方法、装置及存储介质
CN112418216B (zh) 一种复杂自然场景图像中的文字检测方法
CN108520254B (zh) 一种基于格式化图像的文本检测方法、装置以及相关设备
CN110598686B (zh) 发票的识别方法、系统、电子设备和介质
CN110287952B (zh) 一种维语图片字符的识别方法及系统
CN102663378B (zh) 连笔手写字符的识别方法
CN113343707A (zh) 一种基于鲁棒性表征学习的场景文本识别方法
CN113111871A (zh) 文本识别模型的训练方法及装置、文本识别方法及装置
CN111460927B (zh) 对房产证图像进行结构化信息提取的方法
CN111696110B (zh) 场景分割方法及系统
CN110689012A (zh) 一种端到端的自然场景文本识别方法及系统
CN110210433B (zh) 一种基于深度学习的集装箱箱号检测与识别方法
CN113378764B (zh) 基于聚类算法的视频人脸采集方法、装置、设备及介质
CN113780276B (zh) 一种结合文本分类的文本识别方法及系统
CN112215236B (zh) 文本识别方法、装置、电子设备及存储介质
CN114022887B (zh) 文本识别模型训练及文本识别方法、装置、电子设备
CN113763249A (zh) 文本图像超分辨率重建方法及其相关设备
CN112686243A (zh) 智能识别图片文字的方法、装置、计算机设备及存储介质
CN114581918A (zh) 一种文本识别模型训练方法及装置
US20240185590A1 (en) Method for training object detection model, object detection method and apparatus
CN111079749B (zh) 一种带姿态校正的端到端商品价签文字识别方法和系统
CN111612802B (zh) 一种基于现有图像语义分割模型的再优化训练方法及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant