CN114092938A - 图像的识别处理方法、装置、电子设备及存储介质 - Google Patents
图像的识别处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114092938A CN114092938A CN202210058577.2A CN202210058577A CN114092938A CN 114092938 A CN114092938 A CN 114092938A CN 202210058577 A CN202210058577 A CN 202210058577A CN 114092938 A CN114092938 A CN 114092938A
- Authority
- CN
- China
- Prior art keywords
- stroke
- image
- character
- area image
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
本申请提供了一种图像的识别处理方法、装置、电子设备及存储介质;应用于地图领域;方法包括:从待处理图像中识别出至少一个文字区域图像,对每个文字区域图像进行文字识别处理,得到字库中与每个文字区域图像对应的字库文字;对文字区域图像进行笔画抽取处理,得到文字区域图像中至少一个笔画框的笔画抽取结果;基于文字区域图像中每个笔画框的笔画抽取结果、以及文字区域图像对应的字库文字进行笔画对齐处理,得到文字区域图像中每个笔画框与文字区域图像对应的字库文字的笔画之间的笔画对应关系;通过本申请,能够准确高效地从包括文字的图像中识别出笔画并与字库文字的笔画对应。
Description
技术领域
本申请涉及人工智能和图像处理技术,尤其涉及一种图像的识别处理方法、装置、电子设备及存储介质。
背景技术
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人们在生产和生活中,要处理大量的文字、报表和文本。文字识别可应用于许多领域,如阅读、翻译、文献资料的检索、信件和包裹的分拣、稿件的编辑和校对、大量统计报表和卡片的汇总与分析、银行支票的处理、商品发票的统计汇总、商品编码的识别、商品仓库的管理,以及水、电、煤气、房租、人身保险等费用的征收业务中的大量信用卡片的自动处理和办公室打字员工作的局部自动化等。
相关技术缺乏对这些图片中的文字进行准确、高效的识别处理的方案。
发明内容
本申请实施例提供一种图像的识别处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够提取图片中文字的笔画并与字库中文字的笔画对齐。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种图像的识别处理方法,包括:
从待处理图像中识别出至少一个文字区域图像,其中,每个所述文字区域图像是一个待识别文字的成像区域;
对每个所述文字区域图像进行文字识别处理,得到字库中与每个所述文字区域图像对应的字库文字;
对所述文字区域图像进行笔画抽取处理,得到所述文字区域图像中至少一个笔画框的笔画抽取结果,其中,每个所述笔画框是一个笔画的成像区域;
基于所述文字区域图像中每个所述笔画框的笔画抽取结果、以及所述文字区域图像对应的字库文字进行笔画对齐处理,得到所述文字区域图像中每个所述笔画框与所述文字区域图像对应的所述字库文字的笔画之间的笔画对应关系;
基于每个所述文字区域图像对应的所述字库文字以及所述笔画对应关系,生成所述待处理图像的识别结果。
本申请实施例提供一种图像的识别处理装置,包括:
第一识别模块,用于从待处理图像中识别出至少一个文字区域图像,其中,每个所述文字区域图像是一个待识别文字的成像区域;
第二识别模块,用于对每个所述文字区域图像进行文字识别处理,得到字库中与每个所述文字区域图像对应的字库文字;
笔画抽取模块,用于对所述文字区域图像进行笔画抽取处理,得到所述文字区域图像中至少一个笔画框的笔画抽取结果,其中,每个所述笔画框是一个笔画的成像区域;
笔画对齐模块,用于基于所述文字区域图像中每个所述笔画框的笔画抽取结果、以及所述文字区域图像对应的所述字库文字进行笔画对齐处理,得到所述文字区域图像中每个所述笔画框与所述文字区域图像对应的所述字库文字的笔画之间的笔画对应关系;
结果返回模块,用于基于每个所述文字区域图像对应的所述字库文字以及所述笔画对应关系,生成所述待处理图像的识别结果。
本申请实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的图像的识别处理方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的图像的识别处理方法。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行本申请实施例上述的图像的识别处理方法。
本申请实施例具有以下有益效果:
通过识别出待处理图像中的待识别文字和待识别文字对应的字库文字,得到待识别文字对应的字库文字,进而对待识别文字的笔画进行抽取,得到笔画框、笔画框的笔画类别、笔画框的笔画像素,实现了从待处理图像中对待识别文字的笔画进行提取的目的,并通过笔画框的位置、笔画框的笔画类别、笔画框的笔画像素与字库文字的笔画进行对齐处理,从而能够让待识别文字的笔画与字库文字的笔画实现对应,从而为图像的下游应用提供了准确的数据源。
附图说明
图1是本申请实施例提供的图像的识别处理系统架构的结构示意图;
图2是本申请实施例提供的图像的识别处理装置的结构示意图;
图3A是本申请实施例提供的图像的识别处理方法步骤101-105的流程示意图;
图3B是本申请实施例提供的图像的识别处理方法步骤101-105具体实现的流程示意图;
图3C是本申请实施例提供的图像的识别处理方法步骤1031具体实现的流程示意图;
图3D是本申请实施例提供的图像的识别处理方法步骤1032具体实现的流程示意图;
图3E是本申请实施例提供的图像的识别处理方法步骤201-202的流程示意图;
图4A是本申请实施例提供的图像的识别处理方法的网络结构图;
图4B是本申请实施例提供的图像的识别处理方法的文字区域检测模型和文字识别模型网络原理图;
图4C是本申请实施例提供的图像的识别处理方法的笔画抽取模型网络原理图;
图4D是本申请实施例提供的图像的识别处理方法的笔画对齐模型网络原理图;
图5是本申请实施例提供的图像的识别处理方法的流程图;
图6是本申请实施例提供的笔画抽取原理示意图;
图7A是本申请实施例提供的文字区域图像笔画对齐结果图;
图7B是本申请实施例提供的与图7A对应的字库文字笔画对齐结果图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)卷积神经网络(CNN,Convolutional Neural Networks):是一类包含卷积计算且具有深度结构的前馈神经网络(FNN,Feed forward Neural Networks),是深度学习(Deep learning)的代表算法之一。卷积神经网络具有表征学习(Representationlearning)能力,能够按其阶层结构对输入图像进行平移不变分类(Shift-invariantclassification)。
2)透视矫正:也称为透视控制,是对照片进行合成或者编辑以得到符合大众对于透视失真理解的结果的过程。
3)变形器(Transformer):一种基于完全自注意力的神经网络模型。
4)笔画对齐:将图像中文字的笔画的图像与字库文字相对应的笔画建立对应关系。
5)实例分割:识别图像中不同类别的实例(即文字),并在图片像素上进行分类。
6)实例区域(Bounding Box):包含一个实例(即文字)的最小矩形外框,每个实例区域内的图像称为一个文字区域图像。
在本申请实施例的实施过程中,申请人发现相关技术存在以下问题:
在相关技术中,对于以笔画为基本构件的待识别文字,例如汉字、韩文等,笔画提取的实现过程为:通过记录使用者的书写过程或笔迹信息,进而与字库文字进行对比或提取对待识别文字中与字库文字相同笔画类型的笔画,在相同笔画类型的基础上对相同笔画类型的笔画进行对比。但是在相关技术中,对待识别文字的笔画进行提取和对比的过程中,没有充分利用笔画的特征,从而使提取和对比的效果不佳。对于如何提高提取和对比效果,相关技术尚无有效解决方案。
本申请实施例提供一种图像的识别处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够提取图片中文字的笔画并与字库中文字的笔画对齐,下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)、车载终端设备等各种类型的终端设备,也可以实施为服务器。下面,将说明设备实施为终端设备时示例性应用。
参见图1,图1是本申请实施例提供的图像的识别处理系统100的架构示意图,为实现图像的识别处理的应用场景,终端设备400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
终端设备400用于供用户使用客户端410,在图形界面410-1显示。终端设备400和服务器200通过有线或者无线网络相互连接。
终端设备400拍摄包括印刷体或手写体的文字的待识别图像,发送到服务器200进行识别处理,得到识别结果(包括待识别文字的笔画与字库文字的笔画间的对应关系),服务器200根据识别结果进行下游应用的处理。
作为终端设备400和服务器200协同进行图像的识别处理的替代方案,终端设备400可以独立进行图像的识别处理,用于待识别图像中识别出待识别文字的笔画并与字库文字的笔画进行对应,得到识别结果(包括待识别文字的笔画与字库文字的笔画间的对应关系),终端设备400根据识别结果进行下游应用的处理。
作为下游应用处理的示例,待识别图像是终端设备400对用户在纸张或平板设备上手写的文字进行拍摄处理得到的,终端设备400对待识别图像进行处理,得到手写体文字与字库文字的笔画对应关系,并在图形界面410-1上显示手写体文字和字库文字以及手写体文字和字库文字的笔画对应关系,基于此,终端设备400或服务器200可准确高效地对手写体文字的美观度进行评估。
作为下游应用处理的示例,待识别图像是终端设备400对用户在纸张或平板设备上手写的文字进行拍摄处理得到的,终端设备400对待识别图像进行处理,得到手写体文字与字库文字的笔画对应关系,并在图形界面410-1上显示手写体文字和字库文字以及手写体文字和字库文字的笔画对应关系,基于此,终端设备400或服务器200可准确高效地对手写体文字的笔画的完成度进行评估。
作为下游应用处理的示例,待识别图像是终端设备400对用户在纸张或平板设备上手写的文字进行拍摄处理得到的,终端设备400对待识别图像进行处理,得到手写体文字与字库文字的笔画对应关系,若该对应关系中存在无法对应的笔画,则判断该手写体文字为错别字,在图形界面410-1上显示手写体文字和字库文字以及手写体文字和字库文字的笔画对应关系,基于此,终端设备400或服务器200可准确高效地对手写体文字是否写错进行判断。
作为下游应用处理的示例,待识别图像是终端设备400拍摄或从网络中下载的地图,其中包括带有文字的地图元素(例如道路指示牌、广告牌),终端设备400对待识别图像进行处理,得到地图元素中的文字与字库文字的笔画对应关系,从而判断地图元素中的文字书写是否符合书写规范(例如是否为错别字)。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端设备400以及服务器200可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
参见图2,图2是本申请实施例提供的图像的识别处理终端设备400的结构示意图,图2所示的终端设备400包括:至少一个处理器420、存储器460、至少一个网络接口430和用户接口450。终端设备400中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统440。
处理器420可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口450包括使得能够呈现媒体内容的一个或多个输出装置451,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口450还包括一个或多个输入装置452,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器460可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器460可选地包括在物理位置上远离处理器420的一个或多个存储设备。
存储器460包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器460旨在包括任意适合类型的存储器。
在一些实施例中,存储器460能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统461,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块462,用于经由一个或多个(有线或无线)网络接口430到达其他计算设备,示例性的网络接口430包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块463,用于经由一个或多个与用户接口450相关联的输出装置451(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块464,用于对一个或多个来自一个或多个输入装置452之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的图像的识别处理装置可以采用软件方式实现,图2示出了存储在存储器460中的图像的识别处理装置465,其可以是程序和插件等形式的软件,包括以下软件模块:第一识别模块4651、第二识别模块4652、笔画抽取模块4653、笔画对齐模块4654和结果返回模块4655,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的图像的识别处理装置可以采用硬件方式实现,作为示例,本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的图像的识别处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
在一些实施例中,终端设备或服务器可以通过运行计算机程序来实现本申请实施例提供的图像的识别处理方法。举例来说,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程序,如图像识别APP或者文字识别APP;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
将结合本申请实施例提供的终端设备的示例性应用和实施,说明本申请实施例提供的图像的识别处理方法。
参见图3A,图3A是本申请实施例提供的图像的识别处理方法的流程示意图,将结合图3A示出的步骤101至步骤105进行说明。
在步骤101中,从待处理图像中识别出至少一个文字区域图像,其中,每个文字区域图像是一个待识别文字的成像区域。
在一些实施例中,参见图4A,图4A是本申请实施例提供的图像的识别处理方法的网络结构图,输入的待处理图像可能包括一个或多个待识别文字,对于一个文字,识别该待处理图像作为文字区域;对于多个待识别文字,首先需要识别出整个文字区域图像,整个文字区域图像包括了所有待识别文字的文字区域图像,之后再对整个文字区域图像进行切割,获取每个待识别文字的文字区域图像。例如通过光学字符识别(OCR,OpticalCharacter Recognition)对待识别图像中的文字区域进行识别,OCR对待识别图像中的像素判断是背景还是前景(即待识别文字),将超过前景阈值的像素返回,之后进行字符切分操作,将整个文字区域图像分割成包括一个待识别文字的文字区域图像,该方法可基于OCR实现,也可应用现有的任何文字区域检测方法中的一种或多种,这里不对文字区域检测的方法进行限定。
作为示例,参见图4B,图4B是本申请实施例提供的图像的识别处理方法的网络原理图,图4B中输入的待处理图像中包括了两个待识别文字“应”和“该”两个待识别文字,本申请实施例首先对待处理图像进行文字区域图像块的提取,文字区域图像块中包括了所有待识别文字(即“应”和“该”两个文字)的文字区域图像,在得到文字区域图像块的基础上,进而对该文字区域图像块进行切割处理,获取每个待识别文字(即“应”和“该”两个文字)的文字区域图像,每个文字区域图像包括一个待识别文字。
上述的方式,首先将待处理图像中所有的待识别文字的文字区域图像作为一个整体,提取所有待识别文字的文字区域图像,得到文字区域图像块,之后再对文字区域图像块进行切割处理,获得每个待识别文字的文字区域图像,能够高效地提取待处理图像中的文字区域图像,并为后续的处理提供基础。
在一些实施例中,参见图3B,图3B是本申请实施例提供的步骤101至步骤105的具体步骤流程示意图,图3B示出的步骤101可以通过步骤1011至步骤1012实现,将结合各步骤进行说明。
在步骤1011中,从待处理图像中识别出待处理图像中的文字整体图像。
作为示例,参见图4B,基于包括了两个待识别文字“应”和“该”的待处理图像,将待处理图像中的多个待识别文字进行膨胀处理,然后识别整个区域轮廓,得到待处理图像中的文字区域图像块。
在步骤1012中,对文字整体图像按文字切割,得到与文字整体图像中的文字一一对应的至少一个文字区域图像。
作为示例,参见图4B,在文字区域图像块的基础上,对文字区域图像块进行水平投影(找到每一个文字的上下界)和垂直投影(找到每一个文字的左右界),水平投影在水平方向上判断每一个文字的最高点所在的水平线和最低点所在的水平线,并沿最高点所在的水平线和最低点所在的水平线进行切割,基于切割的结果,再进行垂直投影,判断在垂直方向上每一个文字的最左点所在的竖线和最右点所在的竖线,并沿最左点所在的竖线和最右点所在的竖线两条竖线切割,最终分别得到“应”和“该”对应的文字区域图像。
在步骤102中,对每个文字区域图像进行文字识别处理,得到字库中与每个文字区域图像对应的字库文字。
在一些实施例中,“应”和“该”字对应的文字区域图像经过文字识别处理,对应得到字库文字“应”和“该”,在这一步骤中,识别出文字区域图像是哪一个具体的汉字。文字识别处理采用模板匹配法或几何特征抽取法,也可以通过上述的OCR对文字区域图像进行识别,得到对应的字库文字,这里不对文字识别处理的方法做限定。
作为机器学习实现OCR的示例,可以基于卷积网络提取特征,然后进行softmax计算相对于字库中每个文字的相似度,取相似度最高的字库文字作为识别结果。
作为采用模板匹配法实现OCR的示例,参见图4B,本申请实施例通过模板匹配法来确定文字区域图像与字库中每个字库文字的文字模板的相似度,将相似度最大的文字模板对应的字库文字,作为字库中与文字区域图像的文字识别结果,即所对应的字库文字,“应”和“该”的文字区域图像经过模板匹配法匹配后,分别得到了字库文字“应”和“该”两个文字库文字。
作为采用几何特征抽取法实现OCR的示例,参见图4B,本申请实施例通过抽取文字区域的一些几何特征,如文字的端点、分叉点、凹凸部分以及水平、垂直、倾斜等各方向的线段、闭合环路等,根据这些特征的位置和相互关系进行逻辑组合判断,获得识别结果。上述的方式,基于模板匹配法或几何特征抽取法或OCR对文字区域图像的文字进行了快速、高效的识别,并获取对应的字库文字,为后续对齐处理提供了对齐目标。
在一些实施例中,参见图3B,图3B示出的步骤102可以通过具体的步骤1021实现,将结合该步骤进行说明。
在步骤1021中,确定文字区域图像与字库中每个字库文字的文字模板的相似度,将相似度最大的文字模板对应的字库文字,作为字库中与文字区域图像对应的字库文字。
作为“应”字的示例,参见图4B,“应”字的文字区域图像采用模板匹配法进行文字识别,通过与字库中每个字库文字的文字模板的相似度,来确定“应”字的文字区域图像对应的是哪一个具体的文字,并得到结果为字库文字“应”字。
作为“该”字的示例,同样参见图4B,“该”字的文字区域图像采用几何特征匹配法进行文字识别,抽取“该”字的文字区域的几何特征,如“该”字的端点、分叉点、凹凸部分以及水平、垂直、倾斜等各方向的线段、闭合环路等,根据这些特征的位置和相互关系进行逻辑组合判断,来确定“该”字的文字区域图像对应的是哪一个具体的文字,并得到结果为字库文字“该”字。
在步骤103中,对文字区域图像进行笔画抽取处理,得到文字区域图像中至少一个笔画框的笔画抽取结果,其中,每个笔画框是一个笔画的成像区域。
在一些实施例中,对每个文字区域图像进行实例分割操作,得到文字区域图像中任一笔画的多个候选框(包含一个实例的最小矩形外框),对任一笔画的多个候选框进行分类,确定该候选框为实例区域的概率,并基于该概率,对候选框进行回归,微调候选框的位置,最终得到任一笔画实例区域,该实例区域包括了笔画框、笔画框的笔画类别、笔画框的笔画像素。
作为“应”字的笔画抽取示例,参见图4C,对“应”字的文字区域图像进行实例分割,得到七个实例区域,分别为第一实例区域4011、第二实例区域4012、第三实例区域4013、第四实例区域4014、第五实例区域4015、第六实例区域4016、第七实例区域4017。上述的方式,通过实例分割识别出了文字区域图像中的不同类别的实例区域,也即不同笔画的实例区域,每个实例区域包括的笔画框、笔画框的笔画类别、笔画框的笔画像素,从而有效地抽取出了文字区域图像中的笔画。
在一些实施例中,参见图3B,图3B示出的步骤103可以通过步骤1031至步骤1033实现,将结合各步骤进行说明。
在步骤1031中,对文字区域图像进行笔画检测处理,得到文字区域图像中的至少一个笔画框、以及每个笔画框的笔画类别。
作为笔画检测处理的示例,参见图4C,从“应”字的文字区域图像中提取第一笔画框4001、第二笔画框4002、第三笔画框4003、第四笔画框4004、第五笔画框4005、第六笔画框4006、第七笔画框4007以及任一笔画框的笔画类别。
在一些实施例中,参见图3C,图3C示出的步骤1031可以通过步骤10311至步骤10314实现,将结合各步骤进行说明。
在步骤10311中,从文字区域图像中提取至少一个候选框。例如,可以直接从文字区域图像提取至少一个候选框;或者,通过CNN进行多层卷积处理,从最后一卷积层输出的卷积特征图提取至少一个候选框。
作为示例,参见图6,图6是本申请实施例中提供的笔画抽取原理示意图。“写”字的文字区域图像经过多层CNN卷积,获取最后一层输出的卷积特征图(Feature map),从卷积特征图中提取不同位置、不同尺寸的多个候选框(Proposal)。
在步骤10312中,对候选框进行卷积处理,得到候选框对应的卷积特征图。
作为示例,参见图6,使用区域建议网络(RPN,RegionProposal Network),在上述得到的候选框上通过滑动的k*k的窗口(滑窗包括三种尺度,分别为128*128、252*256、512*512三种,每种尺度的滑窗又包括三种,分别为长和宽为1:2、长和宽为1:1、长和宽为2:1三种)来进行卷积操作,得到候选框的特征图。
在步骤10313中,分类网络通过激活层的激活函数(例如归一化函数Softmax)做分类处理,将卷积特征图映射为对应多个笔画类别的概率,将最大概率对应的候选框确定为笔画框,并将最大概率对应的笔画类别确定为笔画框的笔画类别。
在步骤10314中,通过回归网络,对候选框进行回归处理,从而对候选框的位置进行修正,得到位置修正后的候选框。
作为示例,参见图6,将扫描到的特征图输入两个平行的全连接层,包括一个包围框分类(Box-classification)层和一个包围框回归(Box-regression)层,包围框分类层用来确定框内的笔画类型(确定框内是不是笔画),包围框回归层用来调整候选框的位置(求目标框位置)并通过包围框分类层和包围框回归层做两次1*1的卷积,分别得到多个特征向量,每个特征向量包括2个分数和4个坐标,2个分数是指背景分数和前景分数,4个坐标指相对于原图在左右上下四个方向的偏移量(l,r,t,b即left,right,top,bottom);对每个特征向量的2个分数来判断该特征向量是不是笔画(分类)并基于特征向量的4个坐标调整特征向量的位置(回归);经过分类和回归,最终输出候选框,将该候选框作为笔画框,笔画检测模型使用位置的形式输出笔画框,位置即笔画框相对于卷积特征图在左右上下四个方向的偏移量l,r,t,b。
在步骤1032中,对文字区域图像进行像素分割处理,得到文字区域图像中待识别文字对应的像素。
作为像素分割处理的示例,参见图4C,从“应”字的文字区域图像中将“应”字的笔画像素进行分割,即对“应”字的文字区域图像中的背景进行去除操作,保留“应”字的笔画像素4000。
在一些实施例中,参见图3D,图3D示出的步骤1032可以通过步骤10321至步骤10325实现,将结合各步骤进行说明。
在步骤10321中,从文字区域图像中提取至少一个候选框。例如,可以直接从文字区域图像提取至少一个候选框;或者,通过CNN进行多层卷积处理,从最后一卷积层输出的卷积特征图提取至少一个候选框。
作为示例,参见图6,使用区域建议网络在上述得到的候选框上通过滑动的k*k的窗口(滑窗包括三种尺度,分别为128*128、252*256、512*512三种,每种尺度的滑窗又包括三种,分别为长和宽为1:2、长和宽为1:1、长和宽为2:1三种)来进行卷积操作,得到候选框的特征图。
在步骤10322中,针对每个候选框,对候选框进行线性映射处理,得到候选框的长、宽、通道数分别对应的特征矩阵。
作为示例,参见图6,对输入的候选框利用上下文注意力机制(ContextAggregation)进行线性映射(做1*1*1的卷积,来压缩通道数),得到特征矩阵(θ,φ,g)θ,φ,g分别代表高、宽、通道数。
在步骤10323中,对候选框的长对应的特征矩阵和宽对应的特征矩阵进行点乘操作,得到协方差矩阵,并确定协方差矩阵中每个像素点的自相关性参数(即每个像素相较于其他所有像素为前景或背景的概率);对自相关性参数进行逻辑回归操作,得到多个注意力系数,并确定多个注意力系数中高于注意力系数阈值的注意力系数。
作为示例,参见图6,对θ,φ进行矩阵点乘操作,得到协方差矩阵,计算出每个像素点的自相关性,即每个像素相较于其他所有像素的关系;对自相关性进行利用归一化函数进行Softmax操作,得到[0,1]的权重,即注意力系数,确定多个注意力系数中高于注意力系数阈值的注意力系数,基于预先设定的注意力系数阈值对注意力系数进行过滤,保留注意力系数以上的注意力系数。
在步骤10324中,将协方差矩阵中与高于注意力系数阈值的注意力系数对应的矩阵元素与候选框的通道数对应的特征矩阵进行点乘操作,得到与候选框通道数相同的像素点。
作为示例,参见图6,对置信度以上的注意力系数乘回特征矩阵g中(用于扩展通道数),得到与候选框通道数相同的像素点。
在步骤10325中,将与候选框通道数相同的像素点、与候选框进行残差运算操作,得到文字区域图像中待识别文字对应的像素。
作为示例,参见图6,将与候选框通道数相同的像素点与候选框做残差运算,获得文字区域图像中待识别文字对应的像素。
在步骤1033中,基于文字区域图像中的至少一个笔画框和文字区域图像中待识别文字对应的像素,确定文字区域图像中至少一个笔画框的笔画的像素。
作为示例,参见图4C,笔画检测获得了“应”字的所有笔画实例区域,每个笔画实例区域包括笔画框和笔画类别,也即第一笔画框4001、第二笔画框4002、第三笔画框4003、第四笔画框4004、第五笔画框4005、第六笔画框4006、第七笔画框4007,而像素分割获得了“应”字的笔画像素4000,将笔画检测的结果与像素分割的结果合并(即将第一笔画框4001、第二笔画框4002、第三笔画框4003、第四笔画框4004、第五笔画框4005、第六笔画框4006、第七笔画框4007对应到“应”字的笔画像素4000),进而得到了第一实例4011、第二实例4012、第三实例4013、第四实例4014、第五实例4015、第六实例4016、第七实例4017。
在一些实施例中,作为分类回归进行抽取的替代的方案,可以采用基于深度神经网络进行端到端预测抽取的方案对图片增强后的每个文字区域图像进行笔画抽取可以采用但不仅限于使用YOLO或SwinTransform,输出笔画框、笔画框的笔画类别和笔画框的笔画像素,YOLO采用预定义的候选框也就是将图片划分为7*7=49个网格(Grid),从每个网格允许预测出2个实例区域(Bounding box),总共49*2=98个实例区域,利用98个实例区域覆盖图片的整个区域。然后卷积、池化最后进入两层全连接。输出层用线性函数做激活函数,需要预测实例区域的位置(数值型),而不仅仅是目标的概率;SwinTransform引入了CNN中的层次化构建方式构建层次化变换器,并引入局部性,对无重合的候选框区域内进行自注意力计算。YOLO或SwinTransform的训练样本为含有手写体文字的图像样本,标记数据是笔画框、笔画框的笔画类别以及笔画框的笔画像素。
当然,步骤1031-1032的执行顺序并不仅限于图3B所述,还可以是步骤1031与步骤1032同时执行。
在步骤104中,对基于文字区域图像中每个笔画框的笔画抽取结果、以及文字区域图像对应的字库文字进行笔画对齐处理,得到文字区域图像中每个笔画框与文字区域图像对应的字库文字的笔画之间的笔画对应关系。
在一些实施例中,参见图3B,图3B示出的步骤104可以通过具体的步骤1041至步骤1043实现,将结合该步骤进行说明。
在步骤1041中,将文字区域图像对应的字库文字中,与笔画框的笔画类别相同类别的每个笔画,作为待对齐笔画。
在步骤1042中,基于笔画框的位置、笔画框的像素与待对齐笔画的相似度,针对每个笔画框与待对齐笔画构建相似度矩阵。
在步骤1043中,对相似度矩阵进行求解操作,得到每个笔画框与待对齐笔画的对应关系。
在一些实施例中,根据每个文字区域图像对应的字库文字以及笔画对应关系,返回待处理图像的识别结果,这里可以先对相同笔画类别的笔画进行分类,并基于相同的笔画类别,将文字区域图像中相同类别的笔画与字库文字相同类别的笔画进行对应;也可以直接对每个文字区域图像中所有的笔画与字库文字的所有笔画进行对应。
上述的两种笔画对应方式,前者通过首先对笔画类别进行判断,过滤出相同笔画类别的笔画,进而对相同类别的笔画进行对应,处理效率更高;后者则对所有笔画直接进行对应,具有更广的使用环境,不局限于对相同类型的笔画进行对比。
作为直接对每个文字区域图像中所有的笔画与字库文字的所有笔画进行对应的示例,参见图4D,第一实例4011、第二实例4012、第三实例4013、第四实例4014、第五实例4015、第六实例4016、第七实例4017对应了字库文字中的第八实例4021、第九实例4022、第十实例4023、第十一实例4024、第十二实例4025、第十三实例4026、第十四实例4027。
在步骤105中,基于每个文字区域图像对应的字库文字以及笔画对应关系,生成待处理图像的识别结果。
作为示例,参见图4C、图7A、图7B,第一实例4011、第二实例4012、第三实例4013、第四实例4014、第五实例4015、第六实例4016、第七实例4017对应了第八实例4021、第九实例4022、第十实例4023、第十一实例4024、第十二实例4025、第十三实例4026、第十四实例4027,在图形界面中显示为:第一“点”701、第一“横”702、第一“撇”703、第二“点”704、第三“点”705、第二“撇”706、第二“横”707,与第四“点”711、第三“横”712、第三“撇”713、第五“点”714、第六“点”715、第四“撇”716、第四“横”717对应,生成图像识别结果。
上述的方式,将每个文字区域图像中所有的笔画与字库文字的所有笔画建立了映射关系,并在图形界面中显示,为后续对手写体文字的美观度、笔画完成度、是否写错提供了数据准备。
在一些实施例中,参见图3E,在执行图3A或图3B示出的步骤之前,还可以执行图3E示出的步骤,将结合图3E示出的步骤201至步骤202进行说明。
在步骤201中,对待处理图像进行以下类型的预处理至少之一:对待处理图像进行角度矫正;对待处理图像进行四点透视变换;对待处理图像进行光照矫正。
在一些实施例中,采用角度矫正或光照矫正至少之一或两者的结合对待处理图像进行预处理,得到预处理后的待处理图像,进而提升后续处理的精度。
作为示例,对于角度矫正,是将几何畸变的待处理图像变换成正视图,一般情况下,待处理图像中的文字区域图像上可能存在矩形框,例如:A4纸、画框、墙壁,在存在矩形框的情况下,在本申请的实施例中,采用透视矫正对待处理图像中的文字区域图像进行角度矫正,采用透视变换的方法,先得到矩形框的四个角点,然后得到要变换后的图片的四个角点(这里要变换后的图片选择了和待处理图像分辨率一样的大小,并且矩形框的四个角点与要变换后的图片的四个角点的顺序需对应),通过getPerspectiveTransform函数得到透视变换矩阵,再通过warpPerspective函数进行透视变换就得到了透视矫正后的待处理图像;对于光照矫正,本申请的实施例对输入的待处理图像预设一个平均亮度,对于任意输入的待处理图像,都校对为该亮度。
上述的方式,能够使待处理图像中的文字区域图像倾斜度更小,更清晰、从而更易对文字区域图像进行提取。
步骤202中,通过以下方式至少之一对每个文字区域图像进行图像增强处理:对文字区域图像进行二值化处理;对文字区域图像进行平滑处理。
在一些实施例中,在得到文字区域图像后,在本申请的实施例中首先将文字区域图像转换成灰度图,在灰度图的基础上进行二值化处理,基于设定的灰度阈值对灰度图中的像素点进行二值化,转换成二值化图像,从而去掉部分噪声点,之后再对二值化图像做平滑处理,得到增强后的文字区域图像,对文字区域图像进行增强的方法不仅限于对文字区域图像进行二值化或平滑处理,也可应用现有的任何增强方法中的一种或多种,这里不对图像的增强方法进行限定。
作为示例,二值化的过程采用了threshold函数,即对灰度值大于(或小于)灰度阈值时进行赋值;在得到二值化图像后,对二值化图像进行平滑处理,本实施例中,平滑处理的过程采用了boxFilter函数,即使用盒式滤波(在给定的滑动窗口大小下,对每一个窗口内的像素值进行相加求和,输出求和后的像素值作为输出值)来对二值化图像进行模糊处理,从而得到平滑处理后的二值化图像。
通过对待处理图像进行二值化和平滑处理,二值化去掉了待处理图像中的部分噪声点,平滑处理去掉了待处理图像中的部分锯齿,从而进一步提升了后续步骤的精度。
下面,将说明本申请实施例在一个实际的图像的识别处理应用场景中的示例性应用。
本申请实施例可具有如下场景,例如,使用手机拍摄手写板或A4纸上的文字,得到待处理图像,下游应用进行处理,得到手写体文字与字库文字的笔画对应关系,并在图形界面410-1上显示,终端设备400可准确高效地对手写体文字的美观度、手写体文字的笔画的完成度、是否为错别字进行评估。参见图5,图5是本申请一些实施例中提供的图像的处理识别方法的流程图。
首先,对待处理图像进行预处理,预处理采用角度矫正或光照矫正中的至少一个,对于角度矫正,是将几何畸变的待处理图像变换成正视图,一般情况下,待处理图像中的文字区域图像上可能存在矩形框,例如:A4纸、画框、墙壁,在存在矩形框的情况下,在本申请的实施例中,采用透视矫正对待处理图像中的文字区域图像进行角度矫正,采用透视变换的方法,先得到矩形框的四个角点,然后得到要变换后的图片的四个角点(这里要变换后的图片选择了和待处理图像分辨率一样的大小,并且矩形框的四个角点与要变换后的图片的四个角点的顺序需对应),通过getPerspectiveTransform函数得到透视变换矩阵,再通过warpPerspective函数进行透视变换就得到了透视矫正后的待处理图像;对于光照矫正,本申请的实施例对输入的待处理图像预设一个平均亮度,对于任意输入的待处理图像,都校对为该亮度。
其次,对文字区域进行检测,通过膨胀处理矫正后的待处理图像,让图像中的文字连通为一完整的区域,然后识别完整的区域的轮廓,并在该轮廓上添加外框,得到文字区域图像块,在获取文字区域图像块后,对文字区域图像块进行水平投影,找到每一行的上界和下界,进行行切割,对切割出来的每一行,进行垂直投影,找到每一个文字的左界和右界,进行单个字符的切割,得到文字区域图像,每个文字区域图像是一个待识别文字;在一些实施例中对文字区域进行检测可以可应用上述方法,也可应用其它任何文字区域检测方法中的一种或多种,这里不对文字区域检测的方法进行限定。
再次,对文字区域图像进行文字图片增强,在得到文字区域图像后,将文字区域图像转换成灰度图,在灰度图的基础上进行二值化处理,转换成二值化图像,从而去掉部分噪声点,在本申请的实施例中,二值化的过程采用了threshold函数,即对灰度值大于(或小于)灰度阈值时进行赋值;在得到二值化图像后,对二值化图像进行平滑处理,本实施例中,平滑处理的过程采用了boxFilter函数,即使用盒式滤波来对二值化图像进行模糊处理,从而得到平滑处理后的二值化图像;在一些实施例中,对文字区域图像进行文字图片增强的方法不仅限于上述二值化方法和平滑处理方法,也可应用现有的任何二值化方法和平滑处理方法中的一种或多种,这里不对二值化方法和平滑处理方法进行限定。
又次,对文字图片增强后的文字区域进行文字识别,采用模板匹配法确定文字区域图像与字库中每个字库文字的文字模板的相似度,将相似度最大的文字模板对应的字库文字,作为字库中与文字区域图像的文字识别结果,即所对应的字库文字,或采用几何特征抽取法,抽取文字区域的一些几何特征,如文字的端点、分叉点、凹凸部分以及水平、垂直、倾斜等各方向的线段、闭合环路等,根据这些特征的位置和相互关系进行逻辑组合判断,获得识别结果,在本申请的实施例中,对文字区域进行文字识别不仅限于上述模板匹配法或几何特征抽取法,也可以采用其他文字识别方法中的一种或多种,这里不对文字识别方法进行限定。
又次,对图片增强后的每个文字区域图像进行笔画抽取,笔画抽取处理包括笔画检测处理和像素分割处理。
对于笔画检测处理,从文字区域图像中提取至少一个候选框,可以直接从原图提取;或者,通过CNN进行多层卷积处理,从最后一卷积层输出的卷积特征图提取;对候选框进行卷积处理,得到候选框对应的卷积特征图,分类网络通过激活层的激活函数(例如归一化函数softmax)做分类处理,将卷积特征图映射为对应多个笔画类别的概率,将最大概率对应的候选框确定为笔画框,并将最大概率对应的笔画类别确定为笔画框的笔画类别;通过回归网络,对候选框进行回归处理,从而对候选框的位置进行修正,得到位置修正后的候选框。
对于像素分割处理,从文字区域图像中提取至少一个候选框,可以直接从原图提取;或者,通过CNN进行多层卷积处理,从最后一卷积层输出的卷积特征图提取;针对每个候选框,对候选框进行线性映射处理,得到候选框的长、宽、通道数分别对应的特征矩阵;对候选框的长对应的特征矩阵和宽对应的特征矩阵进行点乘操作,得到协方差矩阵,并确定协方差矩阵中每个像素点的自相关性参数(即每个像素相较于其他所有像素的关系);对自相关性参数进行逻辑回归操作,得到多个注意力系数,并确定多个注意力系数中高于注意力系数阈值的注意力系数;再将协方差矩阵中与高于注意力系数阈值的注意力系数对应的矩阵元素与候选框的通道数对应的特征矩阵进行点乘操作,得到与候选框通道数相同的像素点;最后将与候选框通道数相同的像素点、与候选框进行残差运算操作,得到文字区域图像中待识别文字对应的像素。
在得到笔画检测和像素分割的结果后,通过文字区域图像中的至少一个笔画框和文字区域图像中待识别文字对应的像素,确定文字区域图像中至少一个笔画框的笔画的像素。
在一些实施例中,所使用的CNN也可以是Transformer或其它神经网络,这里不对神经网络的类型进行限制。
在一些实施例中,对图片增强后的每个文字区域图像进行笔画抽取可以采用但不仅限于使用YOLO或SwinTransform进行笔画抽取,输出笔画框、笔画框的笔画类别和笔画框的笔画像素。
在一些实施例中,同样对字库文字进行笔画抽取,对字库文字进行笔画抽取的方法与对文字区域图像进行笔画抽取的方法相同,作为后续笔画对齐的基础,也可以对字库文字的对齐特征(字库文字的笔画框、笔画框的笔画类别、笔画框的笔画像素)进行预设。
又次,对笔画框与字库文字的笔画进行笔画对齐,在一些实施例中,文字区域图像中的笔画类别为同一类别的笔画,对于单笔画类别的文字(例如:二、三,仅包括笔画“横”),在获取文字区域图像中所有的笔画框后,与文字区域图像对应的字库文字中笔画类别相同的每个笔画构建相似度矩阵,对相似度矩阵进行求解,得到每个笔画框与待对齐笔画的对应关系。求解采用最大匹配或最优匹配,对于最大匹配,在本实施例中指对于每一个笔画框,都得到与字库文字中笔画类别相同的笔画的对应关系,对于最优匹配,在本实施例中指对于每一个笔画框与字库文字中笔画类别相同的笔画的对应的相似度之和最大。
在一些实施例中,文字区域图像中的笔画类别为不同类别的笔画,对于不同笔画类别的文字(例如:王、十,包括笔画“横”和笔画“竖”),在获取文字区域图像中所有的笔画框后,根据笔画框将文字区域图像对应的字库文字中,与笔画框的笔画类别相同类别的每个笔画,作为待对齐笔画;以笔画框的位置、笔画框的像素与待对齐笔画的相似度,针对每个笔画框与待对齐笔画构建相似度矩阵,对相似度矩阵进行求解,得到每个笔画框与待对齐笔画的对应关系。求解采用最大匹配或最优匹配,对于最大匹配,在本申请实施例中指对于每一个笔画框,都得到与字库文字中笔画类别相同的笔画的对应关系,对于最优匹配,在本实施例中指对于每一个笔画框与字库文字中笔画类别相同的笔画的对应的相似度之和最大。
最后,根据每个文字区域图像对应的字库文字以及笔画对应关系,生成待处理图像的识别结果。
作为示例,参见图6,图6是本申请一些实施例中提供的笔画抽取原理示意图。“写”字的文字区域图像经过多层CNN卷积,获取最后一层输出的卷积特征图(Feature map),从卷积特征图中提取不同位置、不同尺寸的多个候选框(Proposal),之后同时执行笔画检测和像素分割。
对于笔画检测说明如下。
使用区域建议网络(RPN,RegionProposal Network),在上述得到的候选框上通过滑动的k*k的窗口(滑窗包括三种尺度,分别为128*128、252*256、512*512三种,每种尺度的滑窗又包括三种,分别为长和宽为1:2、长和宽为1:1、长和宽为2:1三种)来进行卷积操作,得到候选框的特征图;将扫描到的特征图输入两个平行的全连接层,分别为包围框分类(Box-classification)层和一个包围框回归(Box-regression)层,包围框分类层用来确定框内的笔画类型(确定框内是不是目标),包围框回归层用来调整候选框的位置(求目标框位置)并通过包围框分类层和包围框回归层做两次1*1的卷积,分别得到多个特征向量,每个特征向量包括2个分数和4个坐标,2个分数是指背景分数和前景分数,4个坐标指相对于原图在左右上下四个方向的偏移量(l,r,t,b即left,right,top,bottom);对每个特征向量的2个分数来判断该特征向量是不是目标(分类)并基于特征向量的4个坐标调整特征向量的位置(回归);经过分类和回归,最终输出候选框,将该候选框作为笔画框,笔画检测模型使用位置的形式输出笔画框,位置即笔画框相对于原图在左右上下四个方向的偏移量l,r,t,b。
对于像素分割说明如下。
对输入的候选框利用上下文聚合机制(Context Aggregation)进行线性映射(做1*1*1的卷积,来压缩通道数),得到特征矩阵(θ,φ,g)θ,φ,g分别代表高、宽、通道数;对θ,φ进行矩阵点乘操作,得到协方差矩阵,计算出每个像素点的自相关性,即每个像素相较于其他所有像素的关系;对自相关性进行通过归一化函数进行Softmax操作,得到[0,1]的权重,即注意力系数;基于预先设定的注意力系数阈值对注意力系数进行过滤,保留置信度以上的注意力系数;对置信度以上的注意力系数乘回特征矩阵g中(用于扩展通道数),再与原输入的候选框做残差运算,获得文字区域图像中待识别文字对应的像素。
参见图7A、图7B,图7A是本申请实施例中文字区域图像笔画对齐结果图,图7B是本申请一些实施例中与图7A对应的字库文字笔画对齐结果图。图7A中文字区域图像“应”字的笔画包括多种笔画类别,即三个“点”(第一“点”701、第二“点”704、第三“点”705)、两个“横”(第一“横”702、第二“横”707)、两个“撇”(第一“撇”703、第二“撇”706),在获取文字区域图像中“应”字所有的笔画框后,根据笔画框将文字区域图像对应的字库文字中,与笔画框的笔画类别相同类别的每个笔画,作为待对齐笔画(第四“点”711、第五“点”714、第六“点”715,第三“横”712、第四“横”717,第三“撇”713、第四“撇”716);以“点”为例,以第一“点”701、第二“点”704、第三“点”705的笔画框的位置、笔画框的像素与待对齐笔画中第四“点”711、第五“点”714、第六“点”715的相似度,构建相似度矩阵,这里的相似度可以是余弦相似度,也可以是其他相似度,对相似度矩阵进行求解,得到每个笔画框与待对齐笔画的对应关系,结果为第一“点”701与第四“点”711对应、第二“点”704与第五“点”714对应、第三“点”705与第六“点”715对应,并用不同的灰度(或颜色)予以表示。求解采用最大匹配或最优匹配,对于最大匹配,在本申请的实施例中,指对于第一“点”701、第二“点”704、第三“点”705,都得到与字库文字中第四“点”711、第五“点”714、第六“点”715的对应关系,对于最优匹配,在本申请中的实施例中,指对于第一“点”701、第二“点”704、第三“点”705与第四“点”711、第五“点”714、第六“点”715的对应后,每个对应关系的相似度之和最大。对于剩余类别的笔画类型,同样依照上述方法进行求解,最终得到所有笔画间的对应关系。
在一些实施例中,不再对笔画类别进行区分,而是直接将文字区域图像中“应”字所有的笔画(第一“点”701、第一“横”702、第一“撇”703、第二“点”704、第三“点”705、第二“撇”706、第二“横”707)与(第四“点”711、第三“横”712、第三“撇”713、第五“点”714、第六“点”715、第四“撇”716、第四“横”717)直接构建相似度矩阵,并对该相似度矩阵以上述最大匹配或最优匹配进行求解。
下面继续说明本申请实施例提供的图像的识别处理装置465的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器460的图像的识别处理装置465中的软件模块可以包括:第一识别模块4651,用于从待处理图像中识别出至少一个文字区域图像,其中,每个文字区域图像是一个待识别文字(例如印刷体、手写体)的成像区域。
第一识别模块4651还用于从待处理图像中识别出至少一个文字区域图像之前,对待处理图像进行以下类型的预处理至少之一:对待处理图像进行角度矫正;对待处理图像进行四点透视变换;对待处理图像进行光照矫正。
第一识别模块4651还用于在对每个文字区域图像进行文字识别处理之前,通过以下方式至少之一对每个文字区域图像进行图像增强处理:
对文字区域图像进行二值化处理;对文字区域图像进行平滑处理。
第二识别模块4652,用于基于识别字库,对每个文字区域图像进行文字识别处理,得到字库中与每个文字区域图像的文字识别结果,即所对应的字库文字,也即标准文字。
第二识别模块4652还用于从待处理图像中识别出待处理图像中的文字整体图像;对文字整体图像按文字切割,得到与文字整体图像中的文字一一对应的至少一个文字区域图像;第二识别模块4652还用于针对每个文字区域图像执行以下处理:
确定文字区域图像与字库中每个字库文字的文字模板的相似度,将相似度最大的文字模板对应的字库文字,作为字库中与文字区域图像对应的字库文字。
笔画抽取模块4653,用于对文字区域图像进行笔画抽取处理,得到文字区域图像中至少一个笔画框的笔画抽取结果,其中,每个笔画框是一个笔画的成像区域。
笔画抽取模块4653还用于对笔画抽取处理执行包括笔画检测处理和像素分割处理;笔画抽取模块4653还用于对文字区域图像进行笔画检测处理,得到文字区域图像中的至少一个笔画框、以及每个笔画框的笔画类别;对文字区域图像进行像素分割处理,得到文字区域图像中待识别文字对应的像素;基于文字区域图像中的至少一个笔画框和文字区域图像中待识别文字对应的像素,确定文字区域图像中至少一个笔画框的笔画的像素。
笔画抽取模块4653还用于从文字区域图像中提取至少一个候选框;针对每个候选框执行以下处理:
对候选框进行卷积处理,得到候选框对应的卷积特征图;通过激活函数将卷积特征图映射为对应多个笔画类别的概率,将最大概率对应的候选框确定为笔画框,并将最大概率对应的笔画类别确定为笔画框的笔画类别;对候选框进行位置修正处理,得到位置修正后的候选框。
笔画抽取模块4653还用于从文字区域图像中提取至少一个候选框;针对每个候选框执行以下处理:对候选框进行线性映射处理,得到候选框的长、宽、通道数分别对应的特征矩阵;对候选框的长对应的特征矩阵和宽对应的特征矩阵进行点乘操作,得到协方差矩阵,并确定协方差矩阵中每个像素点的自相关性参数;对自相关性参数进行逻辑回归操作,得到多个注意力系数,并确定多个注意力系数中高于注意力系数阈值的注意力系数;将协方差矩阵中与高于注意力系数阈值的注意力系数对应的矩阵元素与候选框的通道数对应的特征矩阵进行点乘操作,得到与候选框通道数相同的像素点;将与候选框通道数相同的像素点、与候选框进行残差运算操作,得到文字区域图像中待识别文字对应的像素。
笔画对齐模块4654,用于基于文字区域图像中每个笔画框的笔画抽取结果、以及文字区域图像对应的字库文字进行笔画对齐处理,得到文字区域图像中每个笔画框与文字区域图像对应的字库文字的笔画之间的笔画对应关系。
笔画对齐模块4654还用于针对文字区域图像中每个笔画框执行以下处理:
将文字区域图像对应的字库文字中,与笔画框的笔画类别相同类别的每个笔画,作为待对齐笔画;基于笔画框的位置、笔画框的像素与待对齐笔画的相似度,针对每个笔画框与待对齐笔画构建相似度矩阵;对相似度矩阵进行求解操作,得到每个笔画框与待对齐笔画的对应关系。
文字区域图像中至少一个笔画框的笔画抽取结果包括:文字区域图像中至少一个笔画框的笔画类别、文字区域图像中至少一个笔画框的位置、文字区域图像中至少一个笔画框的笔画的像素。
结果返回模块4655,用于基于每个文字区域图像对应的字库文字以及笔画对应关系,生成待处理图像的识别结果。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的图像的识别处理方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的图像的识别处理方法,例如,如图3A至3C示出的图像的识别处理方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的每个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,通过本申请实施例具有以下有益效果:
(1)通过对待检测图像中文字的笔画进行抽取和对齐处理,得到待检测图像中文字的笔画与字库文字的笔画的对应关系,从而摆脱了对于笔迹采集设备的严重依赖,能够直接对图像进行处理,扩展了应用场景。
(2)通过对对待检测图像中文字的笔画进行抽取,并通过笔画类别、笔画位置、笔画像素与字库文字进行对齐,从而显著提升了对齐效率和精度。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (12)
1.一种图像的识别处理方法,其特征在于,所述方法包括:
从待处理图像中识别出至少一个文字区域图像,其中,每个所述文字区域图像是一个待识别文字的成像区域;
对每个所述文字区域图像进行文字识别处理,得到字库中与每个所述文字区域图像对应的字库文字;
对所述文字区域图像进行笔画抽取处理,得到所述文字区域图像中至少一个笔画框的笔画抽取结果,其中,每个所述笔画框是一个笔画的成像区域;
基于所述文字区域图像中每个所述笔画框的笔画抽取结果、以及所述文字区域图像对应的所述字库文字进行笔画对齐处理,得到所述文字区域图像中每个所述笔画框与所述文字区域图像对应的所述字库文字的笔画之间的笔画对应关系;
基于每个所述文字区域图像对应的所述字库文字以及所述笔画对应关系,生成所述待处理图像的识别结果。
2.根据权利要求1所述的方法,其特征在于,
所述笔画抽取处理包括笔画检测处理和像素分割处理;
所述对所述文字区域图像进行笔画抽取处理,得到所述文字区域图像中至少一个笔画框的笔画抽取结果,包括:
对所述文字区域图像进行所述笔画检测处理,得到所述文字区域图像中的至少一个所述笔画框、以及每个所述笔画框的笔画类别;
对所述文字区域图像进行所述像素分割处理,得到所述文字区域图像中所述待识别文字对应的像素;
基于所述文字区域图像中的至少一个所述笔画框和所述文字区域图像中所述待识别文字对应的像素,确定所述文字区域图像中至少一个所述笔画框的笔画的像素。
3.根据权利要求2所述的方法,其特征在于,
所述对所述文字区域图像进行所述笔画检测处理,得到所述文字区域图像中的至少一个所述笔画框、以及每个所述笔画框的笔画类别,包括:
从所述文字区域图像中提取至少一个候选框;
针对每个所述候选框执行以下处理:
对所述候选框进行卷积处理,得到所述候选框对应的卷积特征图;
通过激活函数将所述卷积特征图映射为对应多个笔画类别的概率,将最大概率对应的所述候选框确定为所述笔画框,并将所述最大概率对应的所述笔画类别确定为所述笔画框的所述笔画类别;
对所述候选框进行位置修正处理,得到位置修正后的所述候选框。
4.根据权利要求2所述的方法,其特征在于,所述对所述文字区域图像进行所述像素分割处理,得到所述文字区域图像中所述待识别文字对应的像素,包括:
从所述文字区域图像中提取至少一个候选框;
针对每个所述候选框执行以下处理:
对所述候选框进行线性映射处理,得到所述候选框的长、宽、通道数分别对应的特征矩阵;
对所述候选框的长对应的特征矩阵和宽对应的特征矩阵进行点乘操作,得到协方差矩阵,并确定所述协方差矩阵中每个像素点的自相关性参数;
对所述自相关性参数进行逻辑回归操作,得到多个注意力系数,并确定所述多个注意力系数中高于注意力系数阈值的注意力系数;
将所述协方差矩阵中与所述高于注意力系数阈值的注意力系数对应的矩阵元素与所述候选框的通道数对应的特征矩阵进行点乘操作,得到与所述候选框通道数相同的像素点;
将与所述候选框通道数相同的所述像素点、与所述候选框进行残差运算操作,得到所述文字区域图像中所述待识别文字对应的像素。
5.根据权利要求1所述的方法,其特征在于,
所述文字区域图像中至少一个笔画框的笔画抽取结果包括:所述文字区域图像中至少一个所述笔画框的笔画类别、所述文字区域图像中至少一个所述笔画框的位置、所述文字区域图像中至少一个所述笔画框的笔画的像素;
所述基于所述文字区域图像中每个所述笔画框的笔画抽取结果、以及所述文字区域图像包括的所述字库文字进行笔画对齐处理,得到所述文字区域图像中每个所述笔画框与所述文字区域图像包括的所述字库文字的笔画之间的笔画对应关系,包括:
针对所述文字区域图像中每个所述笔画框执行以下处理:
将所述文字区域图像对应的所述字库文字中,与所述笔画框的所述笔画类别相同类别的每个笔画,作为待对齐笔画;
基于所述笔画框的位置、所述笔画框的像素与所述待对齐笔画的相似度,针对每个所述笔画框与所述待对齐笔画构建相似度矩阵;
对所述相似度矩阵进行求解操作,得到每个所述笔画框与所述待对齐笔画的对应关系。
6.根据权利要求1所述的方法,其特征在于,所述从待处理图像中识别出至少一个文字区域图像之前,所述方法还包括:
对所述待处理图像进行以下类型的预处理至少之一:
对所述待处理图像进行角度矫正;
对所述待处理图像进行四点透视变换;
对所述待处理图像进行光照矫正。
7.根据权利要求1所述的方法,其特征在于,在对每个所述文字区域图像进行文字识别处理之前,所述方法还包括:
通过以下方式至少之一对每个所述文字区域图像进行图像增强处理:
对所述文字区域图像进行二值化处理;
对所述文字区域图像进行平滑处理。
8.根据权利要求1至7任一项所述的方法,其特征在于,
所述从待处理图像中识别出至少一个文字区域图像,包括:
从所述待处理图像中识别出所述待处理图像中的文字整体图像;
对所述文字整体图像按文字切割,得到与所述文字整体图像中的文字一一对应的至少一个文字区域图像;
所述对每个所述文字区域图像进行文字识别处理,得到字库中与每个所述文字区域图像对应的字库文字,包括:
针对每个所述文字区域图像执行以下处理:
确定所述文字区域图像与所述字库中每个所述字库文字的文字模板的相似度,将相似度最大的所述文字模板对应的所述字库文字,作为所述字库中与所述文字区域图像对应的所述字库文字。
9.一种图像的识别处理装置,其特征在于,所述装置包括:
第一识别模块,用于从待处理图像中识别出至少一个文字区域图像,其中,每个所述文字区域图像是一个待识别文字的成像区域;
第二识别模块,用于对每个所述文字区域图像进行文字识别处理,得到字库中与每个所述文字区域图像对应的字库文字;
笔画抽取模块,用于对所述文字区域图像进行笔画抽取处理,得到所述文字区域图像中至少一个笔画框的笔画抽取结果,其中,每个所述笔画框是一个笔画的成像区域;
笔画对齐模块,用于基于所述文字区域图像中每个所述笔画框的笔画抽取结果、以及所述文字区域图像对应的所述字库文字进行笔画对齐处理,得到所述文字区域图像中每个所述笔画框与所述文字区域图像对应的所述字库文字的笔画之间的笔画对应关系;
结果返回模块,用于基于每个所述文字区域图像对应的所述字库文字以及所述笔画对应关系,生成所述待处理图像的识别结果。
10.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至8任一项所述的图像的识别处理方法。
11.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至8任一项所述的图像的识别处理方法。
12.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210058577.2A CN114092938B (zh) | 2022-01-19 | 2022-01-19 | 图像的识别处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210058577.2A CN114092938B (zh) | 2022-01-19 | 2022-01-19 | 图像的识别处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114092938A true CN114092938A (zh) | 2022-02-25 |
CN114092938B CN114092938B (zh) | 2022-04-19 |
Family
ID=80308535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210058577.2A Active CN114092938B (zh) | 2022-01-19 | 2022-01-19 | 图像的识别处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114092938B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114782950A (zh) * | 2022-03-30 | 2022-07-22 | 慧之安信息技术股份有限公司 | 一种基于汉字笔画特征的2d图像文本检测方法 |
CN114915788A (zh) * | 2022-07-19 | 2022-08-16 | 中科金勃信(山东)科技有限公司 | 一种用于档案的图像压缩方法、系统及介质 |
CN117877037A (zh) * | 2024-03-11 | 2024-04-12 | 杭州汇萃智能科技有限公司 | 一种ocr单字符定位识别方法、系统及计算机存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170372158A1 (en) * | 2016-06-02 | 2017-12-28 | Skyworks Solutions, Inc. | Systems and methods for recognition of unreadable characters on printed circuit boards |
CN108256493A (zh) * | 2018-01-26 | 2018-07-06 | 中国电子科技集团公司第三十八研究所 | 一种基于车载视频的交通场景文字识别系统及识别方法 |
CN109784146A (zh) * | 2018-12-05 | 2019-05-21 | 广州企图腾科技有限公司 | 一种字体种类识别方法、电子设备、存储介质 |
CN110378318A (zh) * | 2019-07-30 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 文字识别方法、装置、计算机设备及存储介质 |
CN110909563A (zh) * | 2018-09-14 | 2020-03-24 | 北大方正集团有限公司 | 提取文字骨架的方法、装置、设备和计算机可读存储介质 |
CN112198966A (zh) * | 2020-12-08 | 2021-01-08 | 中南大学 | 基于fmcw雷达系统的笔画识别方法以及系统 |
CN113449726A (zh) * | 2021-07-08 | 2021-09-28 | 中国工商银行股份有限公司 | 文字比对及识别方法、装置 |
-
2022
- 2022-01-19 CN CN202210058577.2A patent/CN114092938B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170372158A1 (en) * | 2016-06-02 | 2017-12-28 | Skyworks Solutions, Inc. | Systems and methods for recognition of unreadable characters on printed circuit boards |
CN108256493A (zh) * | 2018-01-26 | 2018-07-06 | 中国电子科技集团公司第三十八研究所 | 一种基于车载视频的交通场景文字识别系统及识别方法 |
CN110909563A (zh) * | 2018-09-14 | 2020-03-24 | 北大方正集团有限公司 | 提取文字骨架的方法、装置、设备和计算机可读存储介质 |
CN109784146A (zh) * | 2018-12-05 | 2019-05-21 | 广州企图腾科技有限公司 | 一种字体种类识别方法、电子设备、存储介质 |
CN110378318A (zh) * | 2019-07-30 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 文字识别方法、装置、计算机设备及存储介质 |
CN112198966A (zh) * | 2020-12-08 | 2021-01-08 | 中南大学 | 基于fmcw雷达系统的笔画识别方法以及系统 |
CN113449726A (zh) * | 2021-07-08 | 2021-09-28 | 中国工商银行股份有限公司 | 文字比对及识别方法、装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114782950A (zh) * | 2022-03-30 | 2022-07-22 | 慧之安信息技术股份有限公司 | 一种基于汉字笔画特征的2d图像文本检测方法 |
CN114782950B (zh) * | 2022-03-30 | 2022-10-21 | 慧之安信息技术股份有限公司 | 一种基于汉字笔画特征的2d图像文本检测方法 |
CN114915788A (zh) * | 2022-07-19 | 2022-08-16 | 中科金勃信(山东)科技有限公司 | 一种用于档案的图像压缩方法、系统及介质 |
CN114915788B (zh) * | 2022-07-19 | 2022-09-13 | 中科金勃信(山东)科技有限公司 | 一种用于档案的图像压缩方法、系统及介质 |
CN117877037A (zh) * | 2024-03-11 | 2024-04-12 | 杭州汇萃智能科技有限公司 | 一种ocr单字符定位识别方法、系统及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114092938B (zh) | 2022-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492643B (zh) | 基于ocr的证件识别方法、装置、计算机设备及存储介质 | |
Gnanaprakash et al. | Automatic number plate recognition using deep learning | |
CN108664996B (zh) | 一种基于深度学习的古文字识别方法及系统 | |
CN109543690B (zh) | 用于提取信息的方法和装置 | |
CN114092938B (zh) | 图像的识别处理方法、装置、电子设备及存储介质 | |
CN111860525B (zh) | 一种适用于端子排的自底向上光学字符识别方法 | |
CN109635805B (zh) | 图像文本定位方法及装置、图像文本识别方法及装置 | |
CN112862024B (zh) | 一种文本识别方法及系统 | |
CN105335760A (zh) | 一种图像数字字符识别方法 | |
CN110569818A (zh) | 一种智能阅读学习方法 | |
CN113673528B (zh) | 文本处理方法、装置、电子设备和可读存储介质 | |
CN115937887A (zh) | 文档结构化信息的提取方法及装置、电子设备、存储介质 | |
CN118135584A (zh) | 一种基于深度学习的手写表单自动识别方法和系统 | |
US20230153939A1 (en) | Identifying location of shreds on an imaged form | |
CN112149523A (zh) | 基于深度学习和并查集算法的ocr识别并抽取图片的方法、装置、电子设备及存储介质 | |
Varkentin et al. | Development of an application for car license plates recognition using neural network technologies | |
CN115880702A (zh) | 数据处理方法、装置、设备、程序产品及存储介质 | |
CN114783042A (zh) | 基于多移动目标的人脸识别方法、装置、设备及存储介质 | |
CN115294557A (zh) | 图像处理方法、图像处理装置、电子设备及存储介质 | |
CN113780116A (zh) | 发票分类方法、装置、计算机设备和存储介质 | |
CN114241486A (zh) | 一种提高识别试卷学生信息准确率的方法 | |
CN112926610A (zh) | 车牌图像筛选模型的构建方法与车牌图像筛选方法 | |
Prabaharan et al. | Text extraction from natural scene images and conversion to audio in smart phone applications | |
Nair et al. | A Smarter Way to Collect and Store Data: AI and OCR Solutions for Industry 4.0 Systems | |
Rajendra et al. | Design of a recognition system automatic vehicle license plate through a convolution neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |