CN115601759A - 端到端文本识别方法、装置、设备及存储介质 - Google Patents

端到端文本识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115601759A
CN115601759A CN202211362562.1A CN202211362562A CN115601759A CN 115601759 A CN115601759 A CN 115601759A CN 202211362562 A CN202211362562 A CN 202211362562A CN 115601759 A CN115601759 A CN 115601759A
Authority
CN
China
Prior art keywords
image
feature
network
text recognition
attention mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211362562.1A
Other languages
English (en)
Inventor
冯如
冒卜颖
王茹楠
杨晓诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202211362562.1A priority Critical patent/CN115601759A/zh
Publication of CN115601759A publication Critical patent/CN115601759A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/141Image acquisition using multiple overlapping images; Image stitching

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种端到端文本识别方法、装置、设备及存储介质,可以应用于深度学习技术领域和金融技术领域。该方法包括:将待测图像输入特征提取网络,利用分辨率注意力机制提取第一特征图像,其中,第一特征图像中包括待测图像中的局部特征图像和全局特征图像;利用控制点定位网络对第一特征图像进行校正处理,得到第二特征图像;将第二特征图像输入文本识别网络,输出与待测图像对应的文本信息。

Description

端到端文本识别方法、装置、设备及存储介质
技术领域
本公开涉及深度学习技术领域和金融技术领域,尤其涉及一种端到端文本识别方法、装置、设备、介质和程序产品。
背景技术
相关技术中,针对任意形状的端到端的文本检测与识别方法,主要存在以下缺陷:由于文本分辨率低,存在很多低分辨率的图像,对文本检测带来较大的影响;由于文本拍摄者比较随意,可能产生曝光、抖动的情况,致使检测识别准确率低;由于文本含有印章等不规则形状,对后续文字的识别效果有着关键的影响,从而影响了文本识别的准确率。
发明内容
鉴于上述问题,本公开提供了一种端到端文本识别方法、装置、设备、介质和程序产品。
根据本公开的第一个方面,提供了一种端到端文本识别方法,包括:将待测图像输入特征提取网络,利用分辨率注意力机制提取第一特征图像,其中,上述第一特征图像中包括上述待测图像中的局部特征图像和全局特征图像;利用控制点定位网络对上述第一特征图像进行校正处理,得到第二特征图像;将上述第二特征图像输入文本识别网络,输出与上述待测图像对应的文本信息。
根据本公开的实施例,上述将待测图像输入特征提取网络,利用分辨率注意力机制提取第一特征图像,包括:将待测图像输入特征提取网络,利用分辨率注意力机制分别提取上述局部特征图像和上述全局特征图像;将上述局部特征图像和上述全局特征图像进行拼接,得到上述第一特征图像。
根据本公开的实施例,上述分辨率注意力机制包括第一分辨率注意力机制和第二分辨率注意力机制,上述将待测图像输入特征提取网络,利用分辨率注意力机制分别提取上述局部特征图像和上述全局特征图像,包括:将待测图像输入特征提取网络,按照预设分配参数,将上述待测图像的全部特征进行分组,得到局部特征集合和全局特征集合;利用上述第一分辨率注意力机制对上述局部特征集合进行处理,得到上述局部特征图像;利用平均池化层和上述第二分辨率注意力机制对上述全局特征集合进行处理,得到上述全局特征图像。
根据本公开的实施例,上述将待测图像输入特征提取网络,按照预设分配参数,将上述待测图像的全部特征进行分组,得到局部特征集合和全局特征集合,包括:基于多头注意力机制,按照上述预设分配参数将多头注意力机制的头部数量进行分组,得到上述第一分辨率注意力机制的特征数量和上述第二分辨率注意力机制的特征数量;按照上述第一分辨率注意力机制的特征数量,从上述待测图像的全部特征中确定上述局部特征集合;按照上述第二分辨率注意力机制的特征数量,从上述待测图像的全部特征中确定上述全局特征集合。
根据本公开的实施例,上述利用控制点定位网络对上述第一特征图像进行校正处理,得到第二特征图像,包括:从上述控制点定位网络获取预测基准点集合;根据上述预测基准点集合生成校正参数曲线和采样网络;利用上述采样网络对上述第一特征图像进行采样,得到控制点集合;利用上述校正参数曲线对上述控制点集合进行校正处理,得到上述第二特征图像。
根据本公开的实施例,上述控制点集合中包括n个控制点,上述利用上述校正参数曲线对上述控制点集合进行校正处理,得到上述第二特征图像,包括:针对第i个控制点,根据上述控制点的坐标信息和上述校正参数曲线,确定目标偏移量;根据上述控制点的坐标信息和上述目标偏移量,确定上述控制点在校正之后的坐标信息;根据全部n个控制点在校正之后的坐标信息和上述n个控制点,生成上述第二特征图像,其中,1≤i≤n,i、n均为正整数。
根据本公开的实施例,上述端到端文本识别方法还包括:利用上述校正参数曲线的中心点,对上述n个控制点在校正之后的坐标信息进行优化处理,得到优化后的控制点集合;根据上述优化后的控制点集合,生成上述第二特征图像。
根据本公开的实施例,上述将上述第二特征图像输入文本识别网络,输出与上述待测图像对应的文本信息,包括:利用文本识别网络中的编码器提取上述第二特征图像中的时序特征向量;利用上述文本识别网络中的解码器对上述时序特征向量进行处理,得到与上述待测图像对应的文本信息。
根据本公开的实施例,上述端到端文本识别方法还包括:利用数据切分的方法对初始样本图像集进行处理,得到训练样本图像集和测试样本图像集;利用上述训练样本图像集和模型损失函数训练初始端到端文本识别模型,得到经过训练的端到端文本识别模型;利用上述测试样本图像集验证经过训练的端到端文本识别模型的收敛程度,在上述收敛程度满足预设条件的情况下,得到训练好的端到端文本识别模型,其中,上述训练好的端到端文本识别模型包括上述特征提取网络、上述控制点定位网络和上述文本识别网络。
根据本公开的实施例,上述模型损失函数包括文本检测损失函数和文本识别损失函数,上述端到端文本识别方法还包括:根据分类参数、校正曲线的中心度参数和控制点定位网络的偏移量参数,构建上述文本检测损失函数;根据解码顺序参数构建文本识别损失函数;根据上述文本检测损失函数和上述文本识别损失函数,构建上述模型损失函数。
本公开的第二方面提供了一种端到端文本识别装置,包括:提取模块、校正模块和检测模块。其中,提取模块,用于将待测图像输入特征提取网络,利用分辨率注意力机制提取第一特征图像,其中,上述第一特征图像中包括上述待测图像中的局部特征图像和全局特征图像。校正模块,用于利用控制点定位网络对上述第一特征图像进行校正处理,得到第二特征图像。检测模块,用于将上述第二特征图像输入文本识别网络,输出与上述待测图像对应的文本信息。
本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述方法。
本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述方法。
本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述方法。
根据本公开提供的端到端文本识别方法、装置、设备、介质和程序产品,将待测图像输入特征提取网络,利用分辨率注意力机制,能够得到含有高分辨率局部特征像和低分辨率全局特征图像的第一特征图像,可以解决对于低分辨率图像识别准确率低的问题,利用控制点定位网络对第一特征图像进行校正处理,能够得到校正后的第二特征图像,最后将校正后的第二特征图像输入文本识别网络,输出与待测图像对应的文本信息,由于对第一特征图像先进行校正处理,再进行文本识别,可以提高文本识别准确率。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的端到端文本识别方法、装置、设备、介质和程序产品的应用场景图;
图2示意性示出了根据本公开实施例的端到端文本识别方法的流程图;
图3示意性示出了根据本公开实施例的提取第一特征图像的流程图;
图4示意性示出了根据本公开实施例的端到端文本识别方法的示例性系统框架;
图5示意性示出了根据本公开实施例的高低分辨率注意机制的框架;
图6示意性示出了根据本公开实施例的得到第二特征图像的流程图;
图7示意性示出了根据本公开实施例的利用控制点定位网络校正第一特征图像的示例性架构;
图8示意性示出了根据本公开实施例的控制点定位网络模块;
图9示意性示出了根据本公开实施例的输出与待测图像对应的文本信息的流程图;
图10示意性示出了根据本公开实施例的编码器的框架;
图11示意性示出了根据本公开实施例的文本识别网络模块;
图12示意性示出了根据本公开实施例的得到训练好的端到端文本识别模型的流程图;
图13示意性示出了根据本公开实施例的端到端文本识别装置的结构框图;以及
图14示意性示出了根据本公开实施例的适于实现端到端文本识别方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
在本公开的技术方案中,所涉及的数据(如包括但不限于用户个人信息)的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
在实施本公开的过程中发现,针对任意形状的端到端的文本检测与识别方法中,由于文本分辨率低,拍摄时可能产生曝光、抖动等以及文本含有印章等不规则形状,相关技术中,存在文本识别的准确率低的问题。
有鉴于此,本公开的实施例提供了一种端到端文本识别方法,包括:将待测图像输入特征提取网络,利用分辨率注意力机制提取第一特征图像,其中,第一特征图像中包括待测图像中的局部特征图像和全局特征图像;利用控制点定位网络对第一特征图像进行校正处理,得到第二特征图像;将第二特征图像输入文本识别网络,输出与待测图像对应的文本信息。
图1示意性示出了根据本公开实施例的端到端文本识别的应用场景图。
如图1所示,根据该实施例的应用场景100可以包括第一终端设备101、第二终端设备102、第三终端设备103、网络104和服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用第一终端设备101、第二终端设备102、第三终端设备103中的至少一个通过网络104与服务器105交互,以接收或发送消息等。第一终端设备101、第二终端设备102、第三终端设备103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
例如,可以通过第一终端设备101、第二终端设备102、第三终端设备103中至少一个的客户端获取待测图像。
服务器105可以是提供各种服务的服务器,例如对用户利用第一终端设备101、第二终端设备102、第三终端设备103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
例如,可以通过服务器105将待测图像输入特征提取网络,利用分辨率注意力机制提取第一特征图像,从而利用控制点定位网络对第一特征图像进行校正处理,得到第二特征图像,最后将第二特征图像输入文本识别网络,输出与待测图像对应的文本信息。
需要说明的是,本公开实施例所提供的端到端文本识别方法一般可以由服务器105执行。相应地,本公开实施例所提供的端到端文本识别装置一般可以设置于服务器105中。本公开实施例所提供的端到端文本识别方法也可以由不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的端到端文本识别装置也可以设置于不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
以下将基于图1描述的场景,通过图2~图12对公开实施例的端到端文本识别方法进行详细描述。
图2示意性示出了根据本公开实施例的端到端文本识别方法的流程图。
如图2所示,该实施例的端到端文本识别方法200包括操作S210~操作S230。
在操作S210,将待测图像输入特征提取网络,利用分辨率注意力机制提取第一特征图像,其中,第一特征图像可以包括待测图像中的局部特征图像和全局特征图像。
根据本公开的实施例,特征提取网络可以表征基于高低分辨率注意力机制的特征提取网络(HLA Tranformer,High and Low Attention Tranformer),可以提取任意形状文本的特征。高低分辨率注意力机制中高分辨率注意力可以捕获局部特征,低分辨率注意力可以捕获全局特征。
根据本公开的实施例,待测图像可以包括高分辨率的文本信息和低分辨率的背景信息。例如:文本信息可以包括弯曲的“Hello word”,背景信息可以包括虚化的树和房子。
根据本公开的实施例,利用分辨率注意力机制中的高分辨率注意力提取待测图像中高分辨率的文本信息,弯曲的“Hello word”。利用分辨率注意力机制中的低分辨率注意力提取待测图像中低分辨率的背景信息,虚化的树和房子。
根据本公开的实施例,第一特征图像可以包括弯曲的“Hello word”和虚化的树和房子。
在操作S220,利用控制点定位网络对第一特征图像进行校正处理,得到第二特征图像。
根据本公开的实施例,控制点定位网络可以用于检测和预测任意形状文本的控制点。
根据本公开的实施例,利用控制点定位网络,预测得到文本“Hello word”的控制点。对预测得到的文本控制点进行校正,将弯曲的“Hello word”进行校正,得到对齐后的“Hello word”,从而得到第二特征图像。
在操作S230,将第二特征图像输入文本识别网络,输出与待测图像对应的文本信息。
根据本公开的实施例,文本识别网络可以用于从第二特征图像中解码文本内容。
根据本公开的实施例,将包括对齐后“Hello word”的第二特征图像,输入到文本识别网络中,从而输出与待测图像中弯曲的“Hello word”对应的文本信息Hello word。
根据本公开的实施例,将待测图像输入特征提取网络,利用分辨率注意力机制,能够得到含有高分辨率局部特征像和低分辨率全局特征图像的第一特征图像,可以解决对于低分辨率图像识别准确率低的问题,利用控制点定位网络对第一特征图像进行校正处理,能够得到校正后的第二特征图像,最后将校正后的第二特征图像输入文本识别网络,输出与待测图像对应的文本信息,由于对第一特征图像先进行校正处理,再进行文本识别,可以提高文本识别准确率。
图3示意性示出了根据本公开实施例的提取第一特征图像的流程图。
如图3所示,该实施例的提取第一特征图像方法300包括操作S310~操作S320。
在操作S310,将待测图像输入特征提取网络,利用分辨率注意力机制分别提取局部特征图像和全局特征图像。
根据本公开的实施例,利用分辨率注意力机制中的高分辨率注意力提取待测图像中高分辨率的文本信息,弯曲的“Hello word”,得到局部特征图像。利用分辨率注意力机制中的低分辨率注意力提取待测图像中低分辨率的背景信息,虚化的树和房子,得到全局特征图像。在操作S320,将局部特征图像和全局特征图像进行拼接,得到第一特征图像。
根据本公开的实施例,将包括弯曲的“Hello word”的局部特征图像和包括虚化的树和房子的全局特征图像进行特征拼接,得到包括弯曲的“Hello word”和虚化的树和房子的第一特征图像。
根据本公开的实施例,将待测图像输入特征提取网络,利用分辨率注意力机制分别提取高分辨率的局部特征图像和低分辨率的全局特征图像,再进行拼接,得到用于识别的第一特征图像,可以解决传统方法中对于低分辨率的图像识别准确率低的问题。
图4示意性示出了根据本公开实施例的端到端文本识别方法的示例性系统框架。
如图4所示,图中“Hello word”可以表示待测图像中的文本信息。将待测图像输入到特征提取网络HLA Tranformer中,提取待测图像中的特征,并将特征进行拼接融合,得到第一特征图像。利用控制点定位网络在第一特征图的基础上预测得到文本的控制点,并对控制点进行校正,从而对齐文本特征。最后将得到的对齐后的特征输入到文本识别网络中,得到与待测图像对应的文本信息。
根据本公开的实施例,分辨率注意力机制包括第一分辨率注意力机制和第二分辨率注意力机制,将待测图像输入特征提取网络,利用分辨率注意力机制分别提取局部特征图像和全局特征图像,包括:
将待测图像输入特征提取网络,按照预设分配参数,将待测图像的全部特征进行分组,得到局部特征集合和全局特征集合;
利用第一分辨率注意力机制对局部特征集合进行处理,得到局部特征图像;
利用平均池化层和第二分辨率注意力机制对全局特征集合进行处理,得到全局特征图像。
根据本公开的实施例,第一分辨率注意力机制可以表征高分辨率注意力机制。第二分辨率注意力机制可以表征低分辨率注意力机制。
根据本公开的实施例,按照预设的分配参数对待测图像中的特征进行分组,利用第一分辨率注意力机制对局部特征集合进行处理,利用平均池化层和第二分辨率注意力机制对全局特征集合进行处理,可以提高处理效率。
根据本公开的实施例,将待测图像输入特征提取网络,按照预设分配参数,将待测图像的全部特征进行分组,得到局部特征集合和全局特征集合,包括:
基于多头注意力机制,按照预设分配参数将多头注意力机制的头部数量进行分组,得到第一分辨率注意力机制的特征数量和第二分辨率注意力机制的特征数量;
按照第一分辨率注意力机制的特征数量,从待测图像的全部特征中确定局部特征集合;
按照第二分辨率注意力机制的特征数量,从待测图像的全部特征中确定全局特征集合。
根据本公开的实施例,多头注意力机制的头部数量可以表征第一分辨率注意力机制的特征数量与第二分辨率注意力机制的特征数量之和。
根据本公开的实施例,基于多头注意力机制,按照预设分配参数将多头注意力机制的头部数量进行分组,从而根据第一分辨率注意力机制的特征数量和第二分辨率注意力机制的特征数量,分别确定局部特征集合和全局特征集合,可以提高处理效率。
图5示意性示出了根据本公开实施例的高低分辨率注意力机制的框架。
根据本公开的实施例,高低分辨率注意力机制中高分辨率注意力捕获局部特征图像,低分辨率注意力捕获全局特征图像。
根据本公开的实施例,将多头自注意力机制(Multi-Head self-Attention)下的(1-α)Nh个头部(head)分配给高分辨率注意力机制,来捕获细粒度的高分辨率特征。并将获得的高分辨率特征合并(CONCAT),得到高分辨率注意力机制图。
根据本公开的实施例,将多头自注意力机制(Multi-Head self-Attention)下的αNh个头部(head)分配给低分辨率注意力机制。在低分辨率注意力机制中应用平均池化层获得低分辨率特征,对特征图中Query(Q,可以表征从低分辨率提取出的纹理特征信息,用于进行纹理搜索)的位置与低分辨率中的Key(K,可以表征高分辨率图像经过先下采样再上采样得到的与低分辨率图像分布一致的图像的纹理信息,用于进行纹理搜索)和Value(V,可以表征待测图像的纹理信息,用于进行纹理迁移)进行建模。并将获得的低分辨率特征合并(CONCAT),得到低分辨率注意力机制图。
根据本公开的实施例,将高分辨率注意力机制图与低分辨率注意力机制图连接起来进入后面的层,得到第一特征图像。
根据本公开的实施例,针对头部(Head)数量的分配上,高分辨率注意力机制分配的头部数量(1-α)Nh和低分辨率注意力机制分配的头部数量αNh的和与多头自注意力机制中头部数量Nh相同。
根据本公开的实施例,特征提取网络将相同数量的头部分成两组,分配比率为α,其中,α可以表示为人为超参。分配比率α的表达式可以表示为如下公式(1)。
HLA(X)=[H-F(X);L-F(X)] (1)
其中,HLA(X)可以表示为多头自注意力机制中头部的数量,H-F(X)可以表示为高分辨率注意力机制分配的头部数量,L-F(X)可以表示为低分辨率注意力机制分配的头部数量。
图6示意性示出了根据本公开实施例的得到第二特征图像的流程图。
如图6所示,该实施例的得到第二特征图像方法600包括操作S610~操作S640。
在操作S610,从控制点定位网络获取预测基准点集合。
根据本公开的实施例,控制点定位网络可以用于检测任意形状的文本。控制点定位网络采用单阶段无锚框架作为检测分支。
在操作S620,根据预测基准点集合生成校正参数曲线和采样网络。在操作S630,利用采样网络对第一特征图像进行采样,得到控制点集合。
在操作S640,利用校正参数曲线对控制点集合进行校正处理,得到第二特征图像。
根据本公开的实施例,根据校正参数曲线,并利用回归优化所有文本行的控制点。
根据本公开的实施例,利用控制点定位网络预测基准点集合,并通过校正参数曲线对第一特征图像进行处理,由于对形状不规则的文本先进行校正再进行识别,可以提高识别准确率。
图7示意性示出了根据本公开实施例的利用控制点定位网络校正第一特征图像的示例性架构。
根据本公开的实施例,定位网络根据特征图上的预测点,确定变换的参数,并对输入到采样网络(TPS Transformer)中的经过HLA处理的特征图,进行几何变换,经过多次迭代,得到校准后的特征图。
根据本公开的实施例,利用控制点定位网络预测一组基准点。在网格生成器(GridGenerator)中,根据预测点计算变换参数,并生成一个采样网络。采样网络的任务是获取网格和输入图像,并生成方向校正后的图像。
根据本公开的实施例,可以将识别的损失传播回检测分支,使检测和识别共同优化检测分支,很大程度上缓解了文本检测和识别不一致的问题。
根据本公开的实施例,控制点集合中包括n个控制点,利用校正参数曲线对控制点集合进行校正处理,得到第二特征图像,包括:
针对第i个控制点,根据控制点的坐标信息和校正参数曲线,确定目标偏移量;
根据控制点的坐标信息和目标偏移量,确定控制点在校正之后的坐标信息;
根据全部n个控制点在校正之后的坐标信息和n个控制点,生成第二特征图像,其中,1≤i≤n,i、n均为正整数。
根据本公开的实施例,根据n个控制点,输出n个文本对齐的文本特性,主要是基于可微空间变换网络(STN,Spatial Transformer Network)实现的。
根据本公开的实施例,利用校正参数曲线对控制点集合进行校正处理,能够得到文本信息被校正的第二特征图像,同时,由于由于对形状不规则的文本先进行校正再进行识别,可以提高识别准确率。
根据本公开的实施例,上述端到端文本识别方法还包括:
利用校正参数曲线的中心点,对n个控制点在校正之后的坐标信息进行优化处理,得到优化后的控制点集合;
根据优化后的控制点集合,生成第二特征图像。
根据本公开的实施例,利用校正参数曲线的中心点对校正后的控制点进行集中优化,实现了损失反向传播,将文本检测与识别共同优化,提高识别准确率。
图8示意性示出了根据本公开实施例的控制点定位网络模块。
根据本公开的实施例,对于每一行文本,将中心区域采样为正像素,采样文本线的控制点。
根据本公开的实施例,首先拟合三次bezier曲线(贝塞尔曲线),重新计算控制点,对n个MCP(Main Control Point,基准点)点进行均匀采样的表达式可以表示为如下公式(2)。
Figure BDA0003922549710000141
其中,Pk可以表示第k个采样点,Ci可以表示第i个bezier控制点,nmcp可以表示每边控制点的数量。
根据本公开的实施例,Bi,n可以表示Bernstein基多项式(伯恩斯坦多项式),其表达式可以表示为如下公式(3)。
Figure BDA0003922549710000142
其中,
Figure BDA0003922549710000143
可以表示二项式系数,n可以表示控制点的数量,i可以表示第i个控制点(i=0,1,2,…n),t可以表示bezier曲线上的一点,取值范围为0~1。
根据本公开的实施例,采样的n个MCP点被定义为文本实例的整改控制点,并用于生成训练目标。具体来说,对于(x,y)位置的一个正像素,生成偏移目标的表达式可以表示为如下公式(4)。
Δk,x=Pk,x-x, Δk,y=Pk,y-y (4)
其中,Pk,x和Pk,y表示第k个控制点的坐标,Δk,x和Δk,y表示目标对第k个控制点的偏移量。
根据本公开的实施例,采用单阶段anchor-free(无预选框)框架作为检测分支,对所有文本行密集回归优化控制点。回归结果的大小可以表示为(H/S,W/S,4×nmcp),其中nmcp表示每边控制点的数量,S表示输入图像的降采样尺度,H和W分别为特征图的高度和宽度。
图9示意性示出了根据本公开实施例的输出与待测图像对应的文本信息的流程图。
如图9所示,该实施例的端到端文本识别方法900包括操作S910~操作S920。
在操作S910,利用文本识别网络中的编码器提取第二特征图像中的时序特征向量。
根据本公开的实施例,文本识别网络中的编码器部分一共做了4次下采样,缩小到原图大小的16倍,并加入了高低分辨率注意力机制,使用可训练的线性投影将patch Xp(网络面片Xp)映射到潜在的D维嵌入空间中。
根据本公开的实施例,为了对切片空间信息进行编码,学习特定的位置嵌入,将其添加到patch嵌入向量中以保留位置信息,最终得到了N个一维向量的表达式可以表示为如下公式(5)。
Figure BDA0003922549710000151
其中,E是分片的嵌入投影,Epos代表位置嵌入。将输入的嵌入向量x重新编码为一个二维的向量
Figure BDA0003922549710000152
其中,patch大小为P×P,控制点的数量为
Figure BDA0003922549710000153
在操作S920,利用文本识别网络中的解码器对时序特征向量进行处理,得到与待测图像对应的文本信息。
根据本公开的实施例,文本识别网络中的解码器部分一共做了4次上采样,最终将此一维向量恢复成了原来的图像。编码部分和解码部分还做了三次跳跃连接。
根据本公开的实施例,利用文本识别网络中的编码器提取第二特征图像中的时序特征向量,并利用文本识别网络中的解码器对时序特征向量进行处理,能够得到与待测图像对应的文本信息。
图10示意性示出了根据本公开实施例的编码器的框架。
根据本公开的实施例,待测图像经过CNN卷积神经网络,进行采样,将图像一步步变小,先变成原图的1/2,再变成原图的1/4,最后变成原图的1/8,通道数逐渐变多,得到每个不同采样层的特征。并经过隐藏层,进行线性映射,得到一个序列。序列进入到N=12个HLA Transformer,HLA对序列进行处理,得到一个特征提取图,再进入到隐藏层特征。通过reshape函数(重组函数),把通道做成CNN可以识别的操作,将(512,H/16,W/16)的一半与变成原图的1/8的一半进行特征拼接,得到(256,H/8,W/8)。
根据本公开的实施例,编码器由L层高/低分辨率注意力机制(HLA)和多层感知器块(MLP,Multilayer Perceptron)组成。因此,第
Figure BDA0003922549710000164
层的输出可以表示为如下公式(6)和(7)。
Figure BDA0003922549710000161
Figure BDA0003922549710000162
其中,LN(·)可以表示layer normalization(层标准化)操作,
Figure BDA0003922549710000163
可以表示编码图像。
图11示意性示出了根据本公开实施例的文本识别网络模块。
根据本公开的实施例,文本识别网络模块是基于有注意力的编码器和解码器的模型,对输入的图像特征提取序列特征信息。将校正之后的图像输入到文本识别网络,文本识别网络先通过编码器,对图像进行编码,输出特征序列向量,再把特征序列向量输入到卷积层中,利用现有的CNN卷积神经网络计算,可以得到相应的识别出来的字符。
根据本公开的实施例,文本识别网络模块通过文本识别网络对校正后的图像进行直接的字符序列预测。并根据序列模型,进行序列匹配(Sequence mapping),得到序列识别网络。
根据本公开的实施例,序列识别网络的输入是理想的水平校正图像。它是基于一个有注意的编码器-解码器模型。编码器从输入图像IP(图像处理,Image Processing)中提取序列特征表示。然后,解码器采用LSTM(长短期记忆,Long short-term memory),根据每一步看到的适当内容对连续表示进行条件反射,连续输出一个序列。
根据本公开的实施例,该网络将卷积层与递归网络相结合,取代了传统的基于滑动窗口的CNN特征提取方法。为了扩大ConvNet(CNN)提取的特征的接受域,采用Bi-LSTM(双向长短时记忆,Bidirectional Long Short-Term Memory)对特征进行前向和后向分析,获取长期依赖关系。新的特征序列可以表示为如下公式(8)。
L=[l1,l2,…lm] (8)
其中,m=W,li可以表示第i个特征序列(i=1,2,...w)。
根据本公开的实施例,该解码器基于注意的序列模型。在时间步t,解码器根据编码器L输入预测一个字符或序列。注意权重的计算是通过注意(Attention)机制进行的,可以表示为如下公式(9)和(10)。
dt,j=uTtanh(Ust-1+Wlj+bias) (9)
Figure BDA0003922549710000171
其中,dt,j可以表示每个时刻的注意力权值,lj可以表示t时刻编码器输出的线性向量,αt,j可以表示归一化之以利权值,St可以表示编码时隐藏层状态,u,W可以表示可训练权值。
根据本公开的实施例,编码时隐藏层状态可以表示为如下公式(11)。
st=f(st-1,yt-1,αt) (11)
其中,f(.)可以表示非线性激活函数,yt-1可以表示t-1时刻的字符预测输出,解码器会按照顺序从左到右预测识别的字符。
根据本公开的实施例,t时刻的字符预测输出可以表示为如下公式(12)。
yt=f(yt-1,st-1t) (12)
基于注意力机制的解码器可以捕获字符之间的依赖关系,对字符进行识别。
图12示意性示出了根据本公开实施例的得到训练好的端到端文本识别模型的流程图。
如图12所示,该实施例的得到训练好的端到端文本识别模型方法1200包括操作S1210~操作S1230。
在操作S1210,利用数据切分的方法对初始样本图像集进行处理,得到训练样本图像集和测试样本图像集。
根据本公开的实施例,使用数据切分的方法将训练数据中的20%作为验证集验证图片,用来观察模型是否收敛,当模型收敛时,将其停止,就可用于后面的评估。
根据本公开的实施例,在模型训练之前使用CV算法对原有的样本进行数据增广,使用图像翻转,旋转,亮度变化,弹性形变,添加椒盐噪声,运动模糊,增强对比度,造复杂背景等方法进行图像预处理。
在操作S1220,利用训练样本图像集和模型损失函数训练初始端到端文本识别模型,得到经过训练的端到端文本识别模型。
根据本公开的实施例,除了数据划分还有模型超参数设置,每次训练时网络有一次输入8张图片,使用Adam优化器(自适应矩估计优化器)对网络进行优化,β1=0.9,β2=0.999,∈=10-8初始学习率为10-4,一共训练500轮,使用Pytorch深度学习框架。
在操作S1230,利用测试样本图像集验证经过训练的端到端文本识别模型的收敛程度,在收敛程度满足预设条件的情况下,得到训练好的端到端文本识别模型,其中,训练好的端到端文本识别模型包括特征提取网络、控制点定位网络和文本识别网络。
根据本公开的实施例,利用得到的训练好的端到端文本识别模型,可以用于针对任意形状的端到端文本进行识别。
根据本公开的实施例,模型损失函数包括文本检测损失函数和文本识别损失函数,上述端到端文本识别方法还包括:
根据分类参数、校正曲线的中心度参数和控制点定位网络的偏移量参数,构建文本检测损失函数;
根据解码顺序参数构建文本识别损失函数;
根据文本检测损失函数和文本识别损失函数,构建模型损失函数。
根据本公开的实施例,模型损失函数由检测损失
Figure BDA0003922549710000181
和识别损失
Figure BDA0003922549710000182
两部分组成。
根据本公开的实施例,检测损失
Figure BDA0003922549710000183
和识别损失
Figure BDA0003922549710000184
的定义可以表示为如下公式(13)。
Figure BDA0003922549710000185
其中,λdet和λrec可以表示超参数。
检测损失Ldet可以表示为如下公式(14)。
Figure BDA0003922549710000191
其中,检测损失函数
Figure BDA0003922549710000192
可以表示一个多任务损失函数。
Figure BDA0003922549710000193
Figure BDA0003922549710000194
分别用于分类和中心度预测。
Figure BDA0003922549710000195
可以表示MCP头的损失函数,由Sm实现,MCP头的损失函数可以表示为如下公式(15)。
Figure BDA0003922549710000196
其中,Δpred和Δtarget分别为控制点定位网络的预测偏移量和目标偏移量。这里λmcp用于平衡重要性,并在实验中默认设置为0.2。识别损失函数
Figure BDA0003922549710000197
用于优化识别分支。
识别损失函数
Figure BDA0003922549710000198
可以表示为如下公式(16)。
Figure BDA0003922549710000199
其中,y1,…yt,…,yt是由字符序列表示的ground truth(真实数据)文本。目标是平均从左到右和从右到左解码器上的损失。其预测分布分别用pltr和prtl表示。
根据本公开的实施例,根据分类参数、校正曲线的中心度参数和控制点定位网络的偏移量参数,构建文本检测损失函数,并根据解码顺序参数构建文本识别损失函数,最后根据文本检测损失函数和文本识别损失函数,构建模型损失函数,可以根据构建的模型损失函数,优化端到端文本识别模型,得到训练好的端到端文本识别模型。
基于上述端到端文本识别方法,本公开还提供了一种端到端文本识别装置。以下将结合图13对该装置进行详细描述。
图13示意性示出了根据本公开实施例的端到端文本识别装置的结构框图。
如图13所示,该实施例的端到端文本识别装置1300包括提取模块1310、校正模块1320和检测模块1330。
提取模块1310用于将待测图像输入特征提取网络,利用分辨率注意力机制提取第一特征图像,其中,第一特征图像中包括待测图像中的局部特征图像和全局特征图像。在一实施例中,提取模块1310可以用于执行前文描述的操作S210,在此不再赘述。
校正模块1320用于利用控制点定位网络对第一特征图像进行校正处理,得到第二特征图像。在一实施例中,校正模块1320可以用于执行前文描述的操作S220,在此不再赘述。
检测模块1330用于将第二特征图像输入文本识别网络,输出与待测图像对应的文本信息。在一实施例中,检测模块1330可以用于执行前文描述的操作S230,在此不再赘述。
根据本公开的实施例,提取模块1310包括第一提取子模块和第一获得子模块。其中,第一提取子模块,用于将待测图像输入特征提取网络,利用分辨率注意力机制分别提取局部特征图像和全局特征图像。第一获得子模块,用于将局部特征图像和全局特征图像进行拼接,得到第一特征图像。
根据本公开的实施例,分辨率注意力机制包括第一分辨率注意力机制和第二分辨率注意力机制,第一提取子模块包括第一获得单元、第二获得单元和第三获得单元。其中,第一获得单元,用于将待测图像输入特征提取网络,按照预设分配参数,将待测图像的全部特征进行分组,得到局部特征集合和全局特征集合。第二获得单元,用于利用第一分辨率注意力机制对局部特征集合进行处理,得到局部特征图像。第三获得单元,用于利用平均池化层和第二分辨率注意力机制对全局特征集合进行处理,得到全局特征图像。
根据本公开的实施例,第一获得单元包括第一获得子单元、第一确定子单元和第二确定子单元。其中,第一获得子单元,用于基于多头注意力机制,按照预设分配参数将多头注意力机制的头部数量进行分组,得到第一分辨率注意力机制的特征数量和第二分辨率注意力机制的特征数量。第一确定子单元,用于按照第一分辨率注意力机制的特征数量,从待测图像的全部特征中确定局部特征集合。第二确定子单元,用于按照第二分辨率注意力机制的特征数量,从待测图像的全部特征中确定全局特征集合。
根据本公开的实施例,校正模块1320包括第一获取子模块、第一生成子模块、第二获得子模块和第三获得子模块。其中,第一获取子模块,用于从控制点定位网络获取预测基准点集合。第一生成子模块,用于根据预测基准点集合生成校正参数曲线和采样网络。第二获得子模块,用于利用采样网络对第一特征图像进行采样,得到控制点集合。第三获得子模块,用于利用校正参数曲线对控制点集合进行校正处理,得到第二特征图像。
根据本公开的实施例,控制点集合中包括n个控制点,第三获得子模块包括第一确定单元、第二确定单元和第一生成单元。其中,第一确定单元,用于针对第i个控制点,根据控制点的坐标信息和校正参数曲线,确定目标偏移量。第二确定单元,用于根据控制点的坐标信息和目标偏移量,确定控制点在校正之后的坐标信息。第一生成单元,用于根据全部n个控制点在校正之后的坐标信息和n个控制点,生成第二特征图像,其中,1≤i≤n,i、n均为正整数。
根据本公开的实施例,第三获得子模块还包括第四获得单元和第二生成单元。其中,第四获得单元,用于利用校正参数曲线的中心点,对n个控制点在校正之后的坐标信息进行优化处理,得到优化后的控制点集合。第二生成单元,用于根据优化后的控制点集合,生成第二特征图像。
根据本公开的实施例,检测模块1330包括第二提取子模块和第四获得子模块。其中,第二提取子模块,用于利用文本识别网络中的编码器提取第二特征图像中的时序特征向量。第四获得子模块,用于利用文本识别网络中的解码器对时序特征向量进行处理,得到与待测图像对应的文本信息。
根据本公开的实施例,上述端到端文本识别装置1300还包括第一获得模块、第二获得模块和第三获得模块。其中,第一获得模块,用于利用数据切分的方法对初始样本图像集进行处理,得到训练样本图像集和测试样本图像集。第二获得模块,用于利用训练样本图像集和模型损失函数训练初始端到端文本识别模型,得到经过训练的端到端文本识别模型。第三获得模块,用于利用测试样本图像集验证经过训练的端到端文本识别模型的收敛程度,在收敛程度满足预设条件的情况下,得到训练好的端到端文本识别模型,其中,训练好的端到端文本识别模型包括特征提取网络、控制点定位网络和文本识别网络。
根据本公开的实施例,模型损失函数包括文本检测损失函数和文本识别损失函数,上述端到端文本识别装置1300还包括第一构建模块、第二构建模块和第三构建模块。其中,第一构建模块,用于根据分类参数、校正曲线的中心度参数和控制点定位网络的偏移量参数,构建文本检测损失函数。第二构建模块,用于根据解码顺序参数构建文本识别损失函数。第三构建模块,用于根据文本检测损失函数和文本识别损失函数,构建模型损失函数。
根据本公开的实施例,提取模块1310、校正模块1320和检测模块1330中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,提取模块1310、校正模块1320和检测模块1330中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,提取模块1310、校正模块1320和检测模块1330中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图14示意性示出了根据本公开实施例的适于实现端到端文本识别方法的电子设备的方框图。
如图14所示,根据本公开实施例的电子设备1400包括处理器1401,其可以根据存储在只读存储器(ROM)1402中的程序或者从存储部分1408加载到随机访问存储器(RAM)1403中的程序而执行各种适当的动作和处理。处理器1401例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器1401还可以包括用于缓存用途的板载存储器。处理器1401可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 1403中,存储有电子设备1400操作所需的各种程序和数据。处理器1401、ROM 1402以及RAM 1403通过总线1404彼此相连。处理器1401通过执行ROM 1402和/或RAM1403中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 1402和RAM 1403以外的一个或多个存储器中。处理器1401也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备1400还可以包括输入/输出(I/O)接口1405,输入/输出(I/O)接口1405也连接至总线1404。电子设备1400还可以包括连接至I/O接口1405的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1407;包括硬盘等的存储部分1408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1409。通信部分1409经由诸如因特网的网络执行通信处理。驱动器1410也根据需要连接至I/O接口1405。可拆卸介质1411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1410上,以便于从其上读出的计算机程序根据需要被安装入存储部分1408。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 1402和/或RAM 1403和/或ROM 1402和RAM 1403以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例所提供的物品推荐方法。
在该计算机程序被处理器1401执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分1409被下载和安装,和/或从可拆卸介质1411被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分1409从网络上被下载和安装,和/或从可拆卸介质1411被安装。在该计算机程序被处理器901执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (14)

1.一种端到端文本识别方法,包括:
将待测图像输入特征提取网络,利用分辨率注意力机制提取第一特征图像,其中,所述第一特征图像中包括所述待测图像中的局部特征图像和全局特征图像;
利用控制点定位网络对所述第一特征图像进行校正处理,得到第二特征图像;
将所述第二特征图像输入文本识别网络,输出与所述待测图像对应的文本信息。
2.根据权利要求1所述的方法,其中,所述将待测图像输入特征提取网络,利用分辨率注意力机制提取第一特征图像,包括:
将待测图像输入特征提取网络,利用分辨率注意力机制分别提取所述局部特征图像和所述全局特征图像;
将所述局部特征图像和所述全局特征图像进行拼接,得到所述第一特征图像。
3.根据权利要求2所述的方法,其中,所述分辨率注意力机制包括第一分辨率注意力机制和第二分辨率注意力机制,所述将待测图像输入特征提取网络,利用分辨率注意力机制分别提取所述局部特征图像和所述全局特征图像,包括:
将待测图像输入特征提取网络,按照预设分配参数,将所述待测图像的全部特征进行分组,得到局部特征集合和全局特征集合;
利用所述第一分辨率注意力机制对所述局部特征集合进行处理,得到所述局部特征图像;
利用平均池化层和所述第二分辨率注意力机制对所述全局特征集合进行处理,得到所述全局特征图像。
4.根据权利要求3所述的方法,其中,所述将待测图像输入特征提取网络,按照预设分配参数,将所述待测图像的全部特征进行分组,得到局部特征集合和全局特征集合,包括:
基于多头注意力机制,按照所述预设分配参数将多头注意力机制的头部数量进行分组,得到所述第一分辨率注意力机制的特征数量和所述第二分辨率注意力机制的特征数量;
按照所述第一分辨率注意力机制的特征数量,从所述待测图像的全部特征中确定所述局部特征集合;
按照所述第二分辨率注意力机制的特征数量,从所述待测图像的全部特征中确定所述全局特征集合。
5.根据权利要求1所述的方法,其中,所述利用控制点定位网络对所述第一特征图像进行校正处理,得到第二特征图像,包括:
从所述控制点定位网络获取预测基准点集合;
根据所述预测基准点集合生成校正参数曲线和采样网络;
利用所述采样网络对所述第一特征图像进行采样,得到控制点集合;
利用所述校正参数曲线对所述控制点集合进行校正处理,得到所述第二特征图像。
6.根据权利要求5所述的方法,其中,所述控制点集合中包括n个控制点,所述利用所述校正参数曲线对所述控制点集合进行校正处理,得到所述第二特征图像,包括:
针对第i个控制点,根据所述控制点的坐标信息和所述校正参数曲线,确定目标偏移量;
根据所述控制点的坐标信息和所述目标偏移量,确定所述控制点在校正之后的坐标信息;
根据全部n个控制点在校正之后的坐标信息和所述n个控制点,生成所述第二特征图像,其中,1≤i≤n,i、n均为正整数。
7.根据权利要求6所述的方法,还包括:
利用所述校正参数曲线的中心点,对所述n个控制点在校正之后的坐标信息进行优化处理,得到优化后的控制点集合;
根据所述优化后的控制点集合,生成所述第二特征图像。
8.根据权利要求1所述的方法,其中,所述将所述第二特征图像输入文本识别网络,输出与所述待测图像对应的文本信息,包括:
利用文本识别网络中的编码器提取所述第二特征图像中的时序特征向量;
利用所述文本识别网络中的解码器对所述时序特征向量进行处理,得到与所述待测图像对应的文本信息。
9.根据权利要求1所述的方法,还包括:
利用数据切分的方法对初始样本图像集进行处理,得到训练样本图像集和测试样本图像集;
利用所述训练样本图像集和模型损失函数训练初始端到端文本识别模型,得到经过训练的端到端文本识别模型;
利用所述测试样本图像集验证经过训练的端到端文本识别模型的收敛程度,在所述收敛程度满足预设条件的情况下,得到训练好的端到端文本识别模型,其中,所述训练好的端到端文本识别模型包括所述特征提取网络、所述控制点定位网络和所述文本识别网络。
10.根据权利要求9所述的方法,其中,所述模型损失函数包括文本检测损失函数和文本识别损失函数,所述方法还包括:
根据分类参数、校正曲线的中心度参数和控制点定位网络的偏移量参数,构建所述文本检测损失函数;
根据解码顺序参数构建文本识别损失函数;
根据所述文本检测损失函数和所述文本识别损失函数,构建所述模型损失函数。
11.一种端到端文本识别装置,包括:
提取模块,用于将待测图像输入特征提取网络,利用分辨率注意力机制提取第一特征图像,其中,所述第一特征图像中包括所述待测图像中的局部特征图像和全局特征图像;
校正模块,用于利用控制点定位网络对所述第一特征图像进行校正处理,得到第二特征图像;以及
检测模块,用于将所述第二特征图像输入文本识别网络,输出与所述待测图像对应的文本信息。
12.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~10中任一项所述的方法。
13.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~10中任一项所述的方法。
14.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~10中任一项所述的方法。
CN202211362562.1A 2022-11-02 2022-11-02 端到端文本识别方法、装置、设备及存储介质 Pending CN115601759A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211362562.1A CN115601759A (zh) 2022-11-02 2022-11-02 端到端文本识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211362562.1A CN115601759A (zh) 2022-11-02 2022-11-02 端到端文本识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115601759A true CN115601759A (zh) 2023-01-13

Family

ID=84850224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211362562.1A Pending CN115601759A (zh) 2022-11-02 2022-11-02 端到端文本识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115601759A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863456A (zh) * 2023-05-30 2023-10-10 中国科学院自动化研究所 视频文本识别方法、装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863456A (zh) * 2023-05-30 2023-10-10 中国科学院自动化研究所 视频文本识别方法、装置及存储介质
CN116863456B (zh) * 2023-05-30 2024-03-22 中国科学院自动化研究所 视频文本识别方法、装置及存储介质

Similar Documents

Publication Publication Date Title
US11200424B2 (en) Space-time memory network for locating target object in video content
US11163991B2 (en) Method and apparatus for detecting body
CN108520220B (zh) 模型生成方法和装置
US20220129731A1 (en) Method and apparatus for training image recognition model, and method and apparatus for recognizing image
CN109389027B (zh) 表单结构提取网络
CN108171203B (zh) 用于识别车辆的方法和装置
CN108197652B (zh) 用于生成信息的方法和装置
EP3637310A1 (en) Method and apparatus for generating vehicle damage information
CN113822428A (zh) 神经网络训练方法及装置、图像分割方法
US20200293497A1 (en) Compressed sensing using neural networks
CN112149699B (zh) 用于生成模型的方法、装置和用于识别图像的方法、装置
US20210174482A1 (en) Visualization of inspection results
CN115861462B (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
GB2579262A (en) Space-time memory network for locating target object in video content
CN116385827A (zh) 参数化人脸重建模型训练方法及关键点标签数据生成方法
CN115601759A (zh) 端到端文本识别方法、装置、设备及存储介质
CN116155628B (zh) 网络安全检测方法、训练方法、装置、电子设备和介质
CN111161238A (zh) 图像质量评价方法及装置、电子设备、存储介质
CN112346126B (zh) 低级序断层的识别方法、装置、设备及可读存储介质
CN116977247A (zh) 图像处理方法、装置、电子设备及存储介质
CN114067196A (zh) 生成图像场景信息的方法及装置
CN114549849A (zh) 图像识别方法、装置、计算机设备和存储介质
CN113392861A (zh) 模型训练方法、地图绘制方法、装置、计算机设备和介质
CN116070695B (zh) 图像检测模型的训练方法、图像检测方法及电子设备
CN113327210B (zh) 测井图像填补方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination