CN111985465A - 文本识别方法、装置、设备及存储介质 - Google Patents

文本识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111985465A
CN111985465A CN202010825772.4A CN202010825772A CN111985465A CN 111985465 A CN111985465 A CN 111985465A CN 202010825772 A CN202010825772 A CN 202010825772A CN 111985465 A CN111985465 A CN 111985465A
Authority
CN
China
Prior art keywords
text
text box
boxes
recognition
box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010825772.4A
Other languages
English (en)
Inventor
章婷婷
沙源
丁隆乾
罗红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202010825772.4A priority Critical patent/CN111985465A/zh
Publication of CN111985465A publication Critical patent/CN111985465A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

本发明实施方式涉及图像处理技术领域,公开了一种文本识别方法、装置、设备及存储介质。本发明中,在基于预设的文本检测模型识别出待识别文本图像中包含的多个文本框后,通过基于各文本框的定位信息来确定对应文本框的中心坐标和行高,进而基于确定的中心坐标和行高对各文本框进行排序,从而将断开的同行文本、多个短文本能够按照实际顺序进行排序,最终基于排序获得的能够标识文本框在待识别文本图像中正确顺序的目标识别顺序将文本框输入预设的文本识别模型进行解析,从而保证了从待识别文本图像中识别出的文本信息的完整性和准确性。

Description

文本识别方法、装置、设备及存储介质
技术领域
本发明实施方式涉及图像处理技术领域,特别涉及一种文本识别方法、装置、设备及存储介质。
背景技术
光学字符识别(Optical Character Recognition,OCR)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
在OCR识别过程中,传统的图像文字识别,由于需要将待识别文本图像中的文本信息分隔为单个字符,然后再对单个字符逐一进行识别、组合,进而得到文本信息,因此通常只能对规范的文档图像进行识别。为了克服这一缺陷,目前虽然会基于预先构建的文本检测模型和文本识别模型对待识别文本图像中的文本信息进行识别,但是在实际应用中,采用扫描仪或数码相机拍摄的待识别文本图像中除了含有待识别的文本信息,还还有背景,而背景部分则会存在较多干扰因素,加上图片质量可能会存在如失真、形变、低分辨率、非均匀光照等影响,因而同一文本行区域不同字符间可能存在差异大,间隔远,文本存在倾斜、弯曲等问题。因此,在基于预先构建的文本检测模型和文本识别模型对待识别文本图像中的文本信息进行识别时,容易出现同行文本断开,检测为两个或多个短文本行的形式,进而导致最终识别出的文本信息不完整,不准确的问题。
发明内容
本发明实施方式的目的在于提供一种文本识别方法、装置、设备及存储介质,旨在解决上述技术问题。
为解决上述技术问题,本发明的实施方式提供了一种文本识别方法,包括以下步骤:
获取待识别文本图像;
基于预设的文本检测模型对所述待识别文本图像进行识别,得到所述待识别文本图像中包含的多个文本框;
获取各文本框的定位信息,并基于所述定位信息确定各文本框的中心坐标和行高;
基于所述中心坐标和所述行高,对各文本框进行排序,得到目标识别顺序;
将排序后的各文本框按照所述目标识别顺序输入预设的文本识别模型进行解析,得到所述待识别文本图像包含的文本信息。
本发明的实施方式还提供了一种文本识别装置,包括:
文本图像获取模块,用于获取待识别文本图像;
文本框检测模块,用于基于预设的文本检测模型对所述待识别文本图像进行识别,得到所述待识别文本图像中包含的多个文本框;
定位信息获取模块,用于获取各文本框的定位信息,并基于所述定位信息确定各文本框的中心坐标和行高;
排序模块,用于基于所述中心坐标和所述行高,对各文本框进行排序;
文本信息识别模块,用于将排序后的各文本框按序输入预设的文本识别模型进行解析,得到所述待识别文本图像包含的文本信息。
本发明的实施方式还提供了一种文本识别设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上文所述的文本识别方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上文所述的文本识别方法。
本发明实施方式相对于现有技术而言,在基于预设的文本检测模型识别出待识别文本图像中包含的多个文本框后,通过基于各文本框的定位信息来确定对应文本框的中心坐标和行高,进而基于确定的中心坐标和行高对各文本框进行排序,从而将断开的同行文本、多个短文本能够按照实际顺序进行排序,最终基于排序获得的能够标识文本框在待识别文本图像中正确顺序的目标识别顺序将文本框输入预设的文本识别模型进行解析,从而保证了从待识别文本图像中识别出的文本信息的完整性和准确性。
另外,所述获取各文本框的定位信息,并基于所述定位信息确定各文本框的中心坐标和行高,包括:
对于每一个文本框,获取所述文本框四个顶点的横坐标和纵坐标,得到所述文本框的定位信息;
基于所述定位信息中的四个横坐标和四个纵坐标,确定所述文本框的中心坐标;
从所述定位信息中的四个纵坐标中选取最大纵坐标和最小纵坐标;
基于所述最大纵坐标和所述最小纵坐标,确定所述文本框的行高。
另外,所述基于所述中心坐标和所述行高,对各文本框进行排序,得到目标识别顺序,包括:
基于所述中心坐标的纵坐标,对各文本框进行预排序,得到第一识别顺序;
基于所述中心坐标的纵坐标和所述行高,对按照所述第一识别顺序排序的文本框进行同排检测,去除重复的文本框,得到第二识别顺序;
基于所述中心坐标的横坐标,对按照所述第二识别顺序排序的文本框进行同排调序,得到所述目标识别顺序。
另外,所述基于所述中心坐标的纵坐标和所述行高,对按照所述第一识别顺序排序的文本框进行同排检测,去除重复的文本框,得到第二识别顺序,包括:
基于所述中心坐标的纵坐标和所述行高,确定每一个文本框对应的核心纵区间;
按照所述第一识别顺序,检测相邻的文本框对应的核心纵区间是否存在重叠;
若存在重叠,则确定相邻的文本框为重复的文本框;
对重复的文本框择一保留,得到第二识别顺序。
另外,所述基于所述中心坐标的纵坐标和所述行高,确定每一个文本框对应的核心纵区间,包括:
对于每一个文本框,对所述中心坐标的纵坐标和所述行高进行求差运算,得到起始值;
对所述中心坐标的纵坐标和所述行高进行求和运算,得到终止值;
基于所述起始值和所述终止值,确定所述文本框的核心纵区间。
另外,所述基于所述起始值和所述终止值,确定所述文本框的核心纵区间,包括:
基于预设的核心区间因子对所述起始值和所述终止值进行调整;
基于调整后的起始值和调整后的终止值,确定所述文本框的核心纵区间。
另外,所述按照所述第一识别顺序,检测相邻的文本框对应的核心纵区间是否存在重叠,包括:
按照所述第一识别顺序,检测第i个文本框对应的核心纵区间的起始值是否小于第i+1个文本框对应的核心纵区间的终止值,且第i个文本框对应的核心纵区间的终止值是否小于第i+1个文本框对应的核心纵区间的起始值,i为大于0的整数;
若第i个文本框对应的核心纵区间的起始值小于第i+1个文本框对应的核心纵区间的终止值,且第i个文本框对应的核心纵区间的终止值小于第i+1个文本框对应的核心纵区间的起始值,则确定第i个文本框和第i+1个文本框为重复的文本框。
附图说明
一个或多个实施方式通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施方式的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本发明第一实施方式的文本识别方法的具体流程图;
图2是本发明第一实施方式的文本识别方法中从待识别文本图像中识别出的多个文本框的示意图;
图3是本发明第一实施方式的文本识别方法中步骤104的具体实现流程图;
图4是本发明第一实施方式的文本识别方法中步骤1042的具体实现流程图;
图5是本发明第二实施方式的文本识别方法的具体流程图;
图6是本发明第三实施方式的文本识别装置的结结构示意图;
图7是本发明第四实施方式的文本识别设备的结构示意图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
以下各个实施方式的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施方式在不矛盾的前提下可以相互结合相互引用。
本实施方式涉及一种文本识别方法,在基于预设的文本检测模型识别出待识别文本图像中包含的多个文本框后,通过基于各文本框的定位信息来确定对应文本框的中心坐标和行高,进而基于确定的中心坐标和行高对各文本框进行排序,从而将断开的同行文本、多个短文本能够按照实际顺序进行排序,最终基于排序获得的能够标识文本框在待识别文本图像中正确顺序的目标识别顺序将文本框输入预设的文本识别模型进行解析,从而保证了从待识别文本图像中识别出的文本信息的完整性和准确性。
下面对本实施方式的文本识别方法的实现细节进行说明,以下内容仅为方便理解而提供的实现细节,并非实施本方案的必须。
本实施提供的文本识别方法具体是应用于能够执行该方法的任意终端设备,比如个人计算机、平板电脑、智能手机等,此处不再一一列举,本实施方式对此也不做限制。
本实施方式的具体流程如图1所示,具体包括以下步骤:
步骤101,获取待识别文本图像。
具体的说,本实施方式中所说的待识别文本图像是指包含有文本信息的用于进行文本识别的图片。
在某些示例中,待识别文本图像可以是从互联网中随机选取的一张图片,例如从某网站中选择的一张包含有文本信息的图片;在某些示例中,待识别文本图像可以是由用户提供的一张图片,例如用户采用数码相机、手机等具备拍照功能的电子设备拍摄的一张包含有文本信息的图片。
应当理解的是,上述示例仅是为了更好的理解本实施方式的技术方案而列举的示例,不作为对本实施方式的唯一限制。
步骤102,基于预设的文本检测模型对所述待识别文本图像进行识别,得到所述待识别文本图像中包含的多个文本框。
首先,需要说明的是,在本实施方式中,基于文本检测模型从待识别文本图像中识别出的多个文本框均为单行文本框,即一个文本框只含有一行文字信息。
此外,应当理解的是,本实施方式中所说的文本检测模型具体为在进行文本识别操作之前基于一定数量的样本图片训练获得的,并且训练获得的文本检测模型至少能够识别出待识别文本图像中文本信息的文本倾斜方向和连通信息。
此外,值得一提的是,由于本实施方式中提供的文本识别方法主要是为了解决待识别文本图像中因同一文本行区域不同字符间存在差异大、间隔远,以及文本存在倾斜、弯曲等问题,故而针对这种情况基于预设的文本检测模型从待识别文本图像中识别出的文本框通常会有多个,即至少两个。
为了便于说明,本实施方式以文本识别方法应用于家庭宽带装维标签上内容的文本识别场景为例进行具体说明。故而,上述获取到的待识别文本图像具体为家庭宽带装维标签。
由于,在实际应用中,家庭宽带装维标签的待识别文本图像通常是由用户获知装维人员使用摄像设备拍摄获得的,因而可能会由于家庭贷款装维标签的弯折等问题,导致拍摄出的待识别文本图像中文本行区域会造成字符间距、倾斜等现象,为了方便后续说明,本实施方式以图2所示的待识别文本图像为例,则基于文本检测模型对图2所示的家庭贷款装维标签的待识别文本图像进行识别,可以得到A1、A2、A3、A4、A5、A6、A7、A8这8个文本框。
应当理解的是,上述示例仅是为了更好的理解本实施方式的技术方案而列举的示例,不作为对本实施方式的唯一限制。
此外,在实际应用中,如果基于文本检测模型从待识别文本图像中识别出的文本框只有一个,则无需基于本实施方式给出的步骤103至步骤105进行文本信息的识别,直接利用预设的文本识别模型对这个文本框进行解析便可以得到该文本框中的文本信息。
此外,需要说明的是,本实施方式提供的文本检测模型可以直接基于现有训练文本检测模型的方法,比如OCR算法配合卷积神经网络算法训练获得,即任意可以构建能够识别出文本框的文本检测模型均可,本实施方式对其的具体构建不做限制,故而此次也不再赘述文本检测模型的具体构建方式。
步骤103,获取各文本框的定位信息,并基于所述定位信息确定各文本框的中心坐标和行高。
具体的说,在本实施方式中,获取的各文本框的定位信息具体是指各文本框四个顶点的坐标信息。
也就是说,对于每一个文本框,在获取其对应的定位信息,并基于定位信息确定该文本框的中心坐标和行高时,具体是基于如下几个子步骤实现:
首先,获取所述文本框四个顶点的横坐标和纵坐标,得到所述文本框的定位信息。
然后,基于所述定位信息中的四个横坐标和四个纵坐标,确定所述文本框的中心坐标。
接着,从所述定位信息中的四个纵坐标中选取最大纵坐标和最小纵坐标。
最后,基于所述最大纵坐标和所述最小纵坐标,确定所述文本框的行高。
为了便于理解,以下以确定图2中识别出的文本框A1的中心坐标和行高为例,进行具体说明:
首先,获取文本框A1左上角、右上角、左下角和右下角这四个顶点的坐标信息,依次如下:(xlu(A1),ylu(A1))、(xru(A1),yru(A1))、(xll(A1),yll(A1))、(xrl(A1),yrl(A1))。
其中,xlu(A1)为左上角这个顶点的横坐标,ylu(A1)为左上角这个点的纵坐标;xru(A1)为右上角这个点的横坐标,yru(A1)为右上角这个点的纵坐标;xll(A1)为左下角这个点的横坐标,yll(A1)为左下角这个点的纵坐标;xrl(A1)为右下角这个点的横坐标,yrl(A1)为右下角这个点的纵坐标。
然后,按照公式(1)确定文本框A1的中心点的横坐标xc(A1),按照公式(2)确定文本框A1的中心点的纵坐标yc(A1),按照公式(3)确定文本框A1的行高h(A1)。
Figure BDA0002636150670000071
Figure BDA0002636150670000072
相应地,文本框A1中心点的中心坐标为(xc(A1),yc(A1))。
h(A1)=max(ylu(A1),yru(A1),yll(A1),yrl(A1))-min(ylu(A1),yru(A1),yll(A1),yrl(A1)) (3)
其中,max(ylu(A1),yru(A1),yll(A1),yrl(A1))表示从文本框A1的四个顶点对应的纵坐标中选最大纵坐标,min(ylu(A1),yru(A1),yll(A1),yrl(A1))表示从文本框A1的四个顶点对应的横坐标中选最小纵坐标。
应当理解的是,上述给出的仅为确定文本框A1的具体方式,在实际应用中,每一个文本框的中心坐标和行高的确定均可参考上述公式(1)、公式(2)和公式(3)。
步骤104,基于所述中心坐标和所述行高,对各文本框进行排序,得到目标识别顺序。
具体的说,本实施方式在基于每一个文本框对应的中心坐标和行高进行文本框排序时,主要分为对文本框的预排序、同排检测、同排调序三个步骤。为了便于理解,以下结合图3进行说明:
步骤1041,基于所述中心坐标的纵坐标,对各文本框进行预排序,得到第一识别顺序。
具体而言,在本实施方式中,基于各文本框对应的中心坐标的纵坐标,对各文本框进行的预排序操作,具体是按照纵坐标的值,从小到大对各文本框进行顺序排序的。
为了便于说明,以下仍以图2示出的几个文本框为例,进行说明:
假设,从图2识别出的文本框只有A1、A2、A4和A7这4个文本框,即各文本框独立为一行,在文本框A1、A2、A4和A7的中心坐标的纵坐标满足:yc(A1)<yc(A2)<yc(A4)<yc(A7)时,最终得到的第一识别顺序为:LA1、LA2、LA4、LA7;假设,从图2识别出的文本框为A1、A2、A3、A4、A5、A6、A7、A8这8个文本框,即存在多个文本框处于同一行的情况,在文本框A1、A2、A3、A4、A5、A6、A7、A8的中心坐标的纵坐标满足:yc(A1)<yc(A2)=yc(A3)<yc(A4)=yc(A5)=yc(A6)<yc(A7)=yc(A8),即文本框A1独立为一行,文本框A2和文本框A3处于同一行,文本框A4、文本框A5和文本框A6处于同一行,文本框A7和文本框A8处于同一行,按照纵坐标的值,从小到大对各文本框进行顺序排序,最终得到的第一识别顺序为:LA1、LA2、LA3、LA4、LA5、LA6、LA7、LA8
也就是说,对于同一行存在多个文本框的情况,在对文本框进行排序时,先按照纵坐标的从小到大排序,对于同一纵坐标值的,基于文本框在前的优先的顺序进行排序。
步骤1042,基于所述中心坐标的纵坐标和所述行高,对按照所述第一识别顺序排序的文本框进行同排检测,去除重复的文本框,得到第二识别顺序。
具体的说,步骤1042所说的同排检测方式,具体是通过根据
具体的说,本实施方式在基于所述中心坐标的纵坐标和所述行高,对按照所述第一识别顺序排序的文本框进行同排检测时,具体是基于文本框的行高和中心坐标的纵坐标确定对应的文本框所属的核心纵区间,然后通过比较相邻两个文本框的核心纵区间是否存在重叠。为了便于理解,以下结合图4进行说明:
步骤1042-1,对于每一个文本框,对所述中心坐标的纵坐标和所述行高进行求差运算,得到起始值。
也就是说,起始值为yc-h。
步骤1042-2,对所述中心坐标的纵坐标和所述行高进行求和运算,得到终止值。
也就是说,终止值为yc+h。
步骤1042-3,基于所述起始值和所述终止值,确定所述文本框的核心纵区间。
也就是说,核心纵区间为(yc-h,yc+h)。
应当理解的是,上述示例仅是一种基于所述中心坐标的纵坐标和所述行高,确定每一个文本框对应的核心纵区间的具体实现方式,不作为对本实施方式的唯一限制。
步骤1042-4,按照所述第一识别顺序,检测相邻的文本框对应的核心纵区间是否存在重叠。
具体的说,若存在重叠,则执行步骤1042-5;否则,直接进入步骤1042-6。
为了便于理解,本实施方式给出一种具体的检测规则,具体如下:
按照所述第一识别顺序,检测第i个文本框对应的核心纵区间的起始值是否小于第i+1个文本框对应的核心纵区间的终止值,且第i个文本框对应的核心纵区间的终止值是否小于第i+1个文本框对应的核心纵区间的起始值。
需要说明的是,在本实施方式中,上述出现的i为大于0的整数。
相应地,若第i个文本框对应的核心纵区间的起始值小于第i+1个文本框对应的核心纵区间的终止值,且第i个文本框对应的核心纵区间的终止值小于第i+1个文本框对应的核心纵区间的起始值,则确定第i个文本框和第i+1个文本框为重复的文本框;反之,则确定第i个文本框和第i+1个文本框是不相同的文本框。
步骤1042-5,确定相邻的文本框为重复的文本框,对重复的文本框择一保留。
步骤1042-6,得到第二识别顺序。
应当理解的是,上述示例仅是为了更好的理解本实施方式的技术方案而列举的示例,不作为对本实施方式的唯一限制。
步骤1043,基于所述中心坐标的横坐标,对按照所述第二识别顺序排序的文本框进行同排调序,得到所述目标识别顺序。
具体的说,在基于各文本框中心坐标的横坐标,对按照所述第二识别顺序的文本看进行同排调序时,具体是根据各文本框中心坐标的横坐标的值,从小到大进行排序,即实现同排文本框从做到右的排序。
通过上述描述不难发现,本发明实施方式先通过文本框中心坐标的纵坐标预排序,再基于中心坐标的纵坐标和行高判断前后相邻的文本框是否为同排,最后基于中心坐标的横坐标进行同排调序,简单高效得实现了含非完整文本行的排序问题,从而使得按照当前排序得到的目标识别顺序输入文本识别模型解析得出的文本信息为待识别文本图像中包含的完整文本信息。
步骤105,将排序后的各文本框按照所述目标识别顺序输入预设的文本识别模型进行解析,得到所述待识别文本图像包含的文本信息。
应当理解的是,本实施方式中所说的文本识别模型具体为在进行对文本框中文本信息的解析操作之前基于一定数量的样本文本框训练获得的。
在本实施方式中,文本识别模型具体可以根据深度卷积神经网络算法和递归神经网络算法,或者深度卷积神经网络算法和循环神经网络算法训练获得,即本实施方式中的文本识别模型是基于现有常用卷积神经网络算法训练获得的,即任意可以构建能够识别出文本框中的文本信息的文本识别模型均可,本实施方式对其的具体构建不做限制,故而此次也不再赘述文本识别模型的具体构建方式。
通过上述描述不难发现,本实施方式提供的文本识别方法,在基于预设的文本检测模型识别出待识别文本图像中包含的多个文本框后,通过基于各文本框的定位信息来确定对应文本框的中心坐标和行高,进而基于确定的中心坐标和行高对各文本框进行排序,从而将断开的同行文本、多个短文本能够按照实际顺序进行排序,最终基于排序获得的能够标识文本框在待识别文本图像中正确顺序的目标识别顺序将文本框输入预设的文本识别模型进行解析,从而保证了从待识别文本图像中识别出的文本信息的完整性和准确性。
本发明的第二实施方式涉及一种文本识别方法。第二实施方式在第一实施方式的基础上做了进一步改进,主要改进之处为:在步骤1042-3之前,先基于预设的核心区间因子对所述起始值和所述终止值进行调整,然后在基于调整后的起始值和调整后的终止值,确定所述文本框的核心纵区间。
如图5所示,步骤1042-1、步骤1042-2、步骤1042-3、步骤1042-4、步骤1042-5、步骤1042-6与第一实施方式的大致相同,在此就不再赘述,以下仅针对新增步骤1042-0进行说明:
步骤1042-0,基于预设的核心区间因子对所述起始值和所述终止值进行调整。
为了便于说明,本实施方式用a表示核心区间因子,并规定a的取值区间为(0<a<0.5)。
关于a的具体取值,可以根据实际情况调整,在本实施方式中优选a=0.25。
相应地,调整后的起始值为yc-a*h,调整后的终止值为yc+a*h。
故而,步骤1042-3中所说的基于所述起始值和所述终止值,确定所述文本框的核心纵区间,具体为基于调整后的起始值为yc-a*h和调整后的终止值为yc+a*h,确定所述文本框的核心纵区间,即最终确定的核心纵区间为(yc-a*h,yc+a*h)。
由此,本实施方式提供的文本识别方法,通过引入核心区间因子这一动态阈值来调整每一个文本框对应的核心纵区间,使得核心纵区间将随不同文本框的行高而动态变化,从而对存在差异的字符有更好的鲁棒性,能够更好保证同排检测准确性和排序的准确性。
此外,应当理解的是,上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第三实施方式涉及一种文本识别装置,如图6所示,包括:文本图像获取模块601、文本框检测模块602、定位信息获取模块603、排序模块604和文本信息识别模块605。
其中,文本图像获取模块601,用于获取待识别文本图像;文本框检测模块602,用于基于预设的文本检测模型对所述待识别文本图像进行识别,得到所述待识别文本图像中包含的多个文本框;定位信息获取模块603,用于获取各文本框的定位信息,并基于所述定位信息确定各文本框的中心坐标和行高;排序模块604,用于基于所述中心坐标和所述行高,对各文本框进行排序;文本信息识别模块605,用于将排序后的各文本框按序输入预设的文本识别模型进行解析,得到所述待识别文本图像包含的文本信息。
此外,在另一个例子中,所述定位信息获取模块603具体用于对于每一个文本框,获取所述文本框四个顶点的横坐标和纵坐标,得到所述文本框的定位信息;基于所述定位信息中的四个横坐标和四个纵坐标,确定所述文本框的中心坐标;从所述定位信息中的四个纵坐标中选取最大纵坐标和最小纵坐标;基于所述最大纵坐标和所述最小纵坐标,确定所述文本框的行高。
此外,在另一个例子中,所述排序模块604具体用于基于所述中心坐标的纵坐标,对各文本框进行预排序,得到第一识别顺序;基于所述中心坐标的纵坐标和所述行高,对按照所述第一识别顺序排序的文本框进行同排检测,去除重复的文本框,得到第二识别顺序;基于所述中心坐标的横坐标,对按照所述第二识别顺序排序的文本框进行同排调序,得到所述目标识别顺序。
此外,在另一个例子中,所述排序模块604还用于基于所述中心坐标的纵坐标和所述行高,确定每一个文本框对应的核心纵区间;按照所述第一识别顺序,检测相邻的文本框对应的核心纵区间是否存在重叠;若存在重叠,则确定相邻的文本框为重复的文本框;对重复的文本框择一保留,得到第二识别顺序。
此外,在另一个例子中,所述排序模块604还用于对于每一个文本框,对所述中心坐标的纵坐标和所述行高进行求差运算,得到起始值;对所述中心坐标的纵坐标和所述行高进行求和运算,得到终止值;基于所述起始值和所述终止值,确定所述文本框的核心纵区间。
此外,在另一个例子中,所述排序模块604还用于基于预设的核心区间因子对所述起始值和所述终止值进行调整;基于调整后的起始值和调整后的终止值,确定所述文本框的核心纵区间。
此外,在另一个例子中,所述排序模块604还用于按照所述第一识别顺序,检测第i个文本框对应的核心纵区间的起始值是否小于第i+1个文本框对应的核心纵区间的终止值,且第i个文本框对应的核心纵区间的终止值是否小于第i+1个文本框对应的核心纵区间的起始值,i为大于0的整数;若第i个文本框对应的核心纵区间的起始值小于第i+1个文本框对应的核心纵区间的终止值,且第i个文本框对应的核心纵区间的终止值小于第i+1个文本框对应的核心纵区间的起始值,则确定第i个文本框和第i+1个文本框为重复的文本框。
不难发现,本实施方式为与第一或第二实施方式相对应的装置实施方式,本实施方式可与第一或第二实施方式互相配合实施。第一或第二实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一或第二实施方式中。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本发明第四实施方式涉及一种文本识别设备,如图7所示,包括至少一个处理器701;以及,与所述至少一个处理器701通信连接的存储器702;其中,所述存储器702存储有可被所述至少一个处理器701执行的指令,所述指令被所述至少一个处理器701执行,以使所述至少一个处理器701能够执行上述第一或第二实施方式所描述的文本识别方法。
其中,存储器702和处理器701采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器701和存储器702的各种电路链接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器701负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器702可以被用于存储处理器701在执行操作时所使用的数据。
本申请的第五实施例涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例所描述的人像图片质量评估方法。
本领域技术人员可以理解实现上述实施方式方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施方式,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (10)

1.一种文本识别方法,其特征在于,包括:
获取待识别文本图像;
基于预设的文本检测模型对所述待识别文本图像进行识别,得到所述待识别文本图像中包含的多个文本框;
获取各文本框的定位信息,并基于所述定位信息确定各文本框的中心坐标和行高;
基于所述中心坐标和所述行高,对各文本框进行排序,得到目标识别顺序;
将排序后的各文本框按照所述目标识别顺序输入预设的文本识别模型进行解析,得到所述待识别文本图像包含的文本信息。
2.根据权利要求1所述的文本识别方法,其特征在于,所述获取各文本框的定位信息,并基于所述定位信息确定各文本框的中心坐标和行高,包括:
对于每一个文本框,获取所述文本框四个顶点的横坐标和纵坐标,得到所述文本框的定位信息;
基于所述定位信息中的四个横坐标和四个纵坐标,确定所述文本框的中心坐标;
从所述定位信息中的四个纵坐标中选取最大纵坐标和最小纵坐标;
基于所述最大纵坐标和所述最小纵坐标,确定所述文本框的行高。
3.根据权利要求1或2所述的文本识别方法,其特征在于,所述基于所述中心坐标和所述行高,对各文本框进行排序,得到目标识别顺序,包括:
基于所述中心坐标的纵坐标,对各文本框进行预排序,得到第一识别顺序;
基于所述中心坐标的纵坐标和所述行高,对按照所述第一识别顺序排序的文本框进行同排检测,去除重复的文本框,得到第二识别顺序;
基于所述中心坐标的横坐标,对按照所述第二识别顺序排序的文本框进行同排调序,得到所述目标识别顺序。
4.根据权利要求3所述的文本识别方法,其特征在于,所述基于所述中心坐标的纵坐标和所述行高,对按照所述第一识别顺序排序的文本框进行同排检测,去除重复的文本框,得到第二识别顺序,包括:
基于所述中心坐标的纵坐标和所述行高,确定每一个文本框对应的核心纵区间;
按照所述第一识别顺序,检测相邻的文本框对应的核心纵区间是否存在重叠;
若存在重叠,则确定相邻的文本框为重复的文本框;
对重复的文本框择一保留,得到第二识别顺序。
5.根据权利要求4所述的文本识别方法,其特征在于,所述基于所述中心坐标的纵坐标和所述行高,确定每一个文本框对应的核心纵区间,包括:
对于每一个文本框,对所述中心坐标的纵坐标和所述行高进行求差运算,得到起始值;
对所述中心坐标的纵坐标和所述行高进行求和运算,得到终止值;
基于所述起始值和所述终止值,确定所述文本框的核心纵区间。
6.根据权利要求5所述的文本识别方法,其特征在于,所述基于所述起始值和所述终止值,确定所述文本框的核心纵区间,包括:
基于预设的核心区间因子对所述起始值和所述终止值进行调整;
基于调整后的起始值和调整后的终止值,确定所述文本框的核心纵区间。
7.根据权利要求6所述的文本识别方法,其特征在于,所述按照所述第一识别顺序,检测相邻的文本框对应的核心纵区间是否存在重叠,包括:
按照所述第一识别顺序,检测第i个文本框对应的核心纵区间的起始值是否小于第i+1个文本框对应的核心纵区间的终止值,且第i个文本框对应的核心纵区间的终止值是否小于第i+1个文本框对应的核心纵区间的起始值,i为大于0的整数;
若第i个文本框对应的核心纵区间的起始值小于第i+1个文本框对应的核心纵区间的终止值,且第i个文本框对应的核心纵区间的终止值小于第i+1个文本框对应的核心纵区间的起始值,则确定第i个文本框和第i+1个文本框为重复的文本框。
8.一种文本识别装置,其特征在于,包括:
文本图像获取模块,用于获取待识别文本图像;
文本框检测模块,用于基于预设的文本检测模型对所述待识别文本图像进行识别,得到所述待识别文本图像中包含的多个文本框;
定位信息获取模块,用于获取各文本框的定位信息,并基于所述定位信息确定各文本框的中心坐标和行高;
排序模块,用于基于所述中心坐标和所述行高,对各文本框进行排序;
文本信息识别模块,用于将排序后的各文本框按序输入预设的文本识别模型进行解析,得到所述待识别文本图像包含的文本信息。
9.一种文本识别设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7任一所述的文本识别方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的文本识别方法。
CN202010825772.4A 2020-08-17 2020-08-17 文本识别方法、装置、设备及存储介质 Pending CN111985465A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010825772.4A CN111985465A (zh) 2020-08-17 2020-08-17 文本识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010825772.4A CN111985465A (zh) 2020-08-17 2020-08-17 文本识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111985465A true CN111985465A (zh) 2020-11-24

Family

ID=73435496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010825772.4A Pending CN111985465A (zh) 2020-08-17 2020-08-17 文本识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111985465A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239227A (zh) * 2021-06-02 2021-08-10 泰康保险集团股份有限公司 图像数据结构化方法、装置、电子设备及计算机可读介质
CN113392827A (zh) * 2021-06-22 2021-09-14 平安健康保险股份有限公司 一种文字识别方法、装置、设备及介质
CN113706660A (zh) * 2021-09-03 2021-11-26 北京有竹居网络技术有限公司 一种信息识别方法、装置、电子设备和存储介质
CN113850268A (zh) * 2021-09-29 2021-12-28 平安科技(深圳)有限公司 基于人工智能的文本识别排序方法、装置、设备及介质
CN114943978A (zh) * 2022-05-13 2022-08-26 上海弘玑信息技术有限公司 一种表格重建的方法及电子设备
WO2023029116A1 (zh) * 2021-08-30 2023-03-09 广东艾檬电子科技有限公司 文本图像的排版方法、装置、电子设备及存储介质
CN116092108A (zh) * 2023-03-20 2023-05-09 四川竺信档案数字科技有限责任公司 一种实体文档扫描生成pdf文件的方法、系统及存储介质
CN113392827B (zh) * 2021-06-22 2024-07-05 平安健康保险股份有限公司 一种文字识别方法、装置、设备及介质

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080025608A1 (en) * 2006-07-31 2008-01-31 Xerox Corporation Landmark-based form reading with declarative language
CN105844207A (zh) * 2015-01-15 2016-08-10 富士通株式会社 文本行提取方法和文本行提取设备
CN107357911A (zh) * 2017-07-18 2017-11-17 北京新美互通科技有限公司 一种文本输入方法及装置
CN108304842A (zh) * 2018-02-01 2018-07-20 重庆中陆承大科技有限公司 水表读数识别方法、装置及电子设备
CN108764228A (zh) * 2018-05-28 2018-11-06 嘉兴善索智能科技有限公司 一种图像中文字目标检测方法
CN108885699A (zh) * 2018-07-11 2018-11-23 深圳前海达闼云端智能科技有限公司 字符识别方法、装置、存储介质及电子设备
CN109325494A (zh) * 2018-08-27 2019-02-12 腾讯科技(深圳)有限公司 图片处理方法、任务数据处理方法和装置
US20190102375A1 (en) * 2017-09-29 2019-04-04 Tata Consultancy Services Limited Automated cognitive processing of source agnostic data
CN109977762A (zh) * 2019-02-01 2019-07-05 汉王科技股份有限公司 一种文本定位方法及装置、文本识别方法及装置
CN110046616A (zh) * 2019-03-04 2019-07-23 北京奇艺世纪科技有限公司 图像处理模型生成、图像处理方法、装置、终端设备及存储介质
CN110490198A (zh) * 2019-08-12 2019-11-22 上海眼控科技股份有限公司 文本方向校正方法、装置、计算机设备和存储介质
CN110619333A (zh) * 2019-08-15 2019-12-27 平安国际智慧城市科技股份有限公司 一种文本行分割方法、文本行分割装置及电子设备
CN110659633A (zh) * 2019-08-15 2020-01-07 坎德拉(深圳)科技创新有限公司 图像文本信息的识别方法、装置以及存储介质
CN111144400A (zh) * 2018-11-06 2020-05-12 北京金山云网络技术有限公司 身份证信息的识别方法、装置、终端设备及存储介质
CN111259878A (zh) * 2018-11-30 2020-06-09 中移(杭州)信息技术有限公司 一种检测文本的方法和设备
CN111259846A (zh) * 2020-01-21 2020-06-09 第四范式(北京)技术有限公司 文本定位方法和系统以及文本定位模型训练方法和系统
CN111291661A (zh) * 2020-01-21 2020-06-16 上海悦易网络信息技术有限公司 一种屏幕中图标的文本内容的识别方法及设备
CN111325203A (zh) * 2020-01-21 2020-06-23 福州大学 一种基于图像校正的美式车牌识别方法及系统
CN111353458A (zh) * 2020-03-10 2020-06-30 腾讯科技(深圳)有限公司 文本框标注方法、装置和存储介质
CN111428717A (zh) * 2020-03-26 2020-07-17 京东方科技集团股份有限公司 文本识别方法、装置、电子设备及计算机可读存储介质

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080025608A1 (en) * 2006-07-31 2008-01-31 Xerox Corporation Landmark-based form reading with declarative language
CN105844207A (zh) * 2015-01-15 2016-08-10 富士通株式会社 文本行提取方法和文本行提取设备
CN107357911A (zh) * 2017-07-18 2017-11-17 北京新美互通科技有限公司 一种文本输入方法及装置
US20190102375A1 (en) * 2017-09-29 2019-04-04 Tata Consultancy Services Limited Automated cognitive processing of source agnostic data
CN108304842A (zh) * 2018-02-01 2018-07-20 重庆中陆承大科技有限公司 水表读数识别方法、装置及电子设备
CN108764228A (zh) * 2018-05-28 2018-11-06 嘉兴善索智能科技有限公司 一种图像中文字目标检测方法
CN108885699A (zh) * 2018-07-11 2018-11-23 深圳前海达闼云端智能科技有限公司 字符识别方法、装置、存储介质及电子设备
CN109325494A (zh) * 2018-08-27 2019-02-12 腾讯科技(深圳)有限公司 图片处理方法、任务数据处理方法和装置
CN111144400A (zh) * 2018-11-06 2020-05-12 北京金山云网络技术有限公司 身份证信息的识别方法、装置、终端设备及存储介质
CN111259878A (zh) * 2018-11-30 2020-06-09 中移(杭州)信息技术有限公司 一种检测文本的方法和设备
CN109977762A (zh) * 2019-02-01 2019-07-05 汉王科技股份有限公司 一种文本定位方法及装置、文本识别方法及装置
CN110046616A (zh) * 2019-03-04 2019-07-23 北京奇艺世纪科技有限公司 图像处理模型生成、图像处理方法、装置、终端设备及存储介质
CN110490198A (zh) * 2019-08-12 2019-11-22 上海眼控科技股份有限公司 文本方向校正方法、装置、计算机设备和存储介质
CN110659633A (zh) * 2019-08-15 2020-01-07 坎德拉(深圳)科技创新有限公司 图像文本信息的识别方法、装置以及存储介质
CN110619333A (zh) * 2019-08-15 2019-12-27 平安国际智慧城市科技股份有限公司 一种文本行分割方法、文本行分割装置及电子设备
CN111259846A (zh) * 2020-01-21 2020-06-09 第四范式(北京)技术有限公司 文本定位方法和系统以及文本定位模型训练方法和系统
CN111291661A (zh) * 2020-01-21 2020-06-16 上海悦易网络信息技术有限公司 一种屏幕中图标的文本内容的识别方法及设备
CN111325203A (zh) * 2020-01-21 2020-06-23 福州大学 一种基于图像校正的美式车牌识别方法及系统
CN111353458A (zh) * 2020-03-10 2020-06-30 腾讯科技(深圳)有限公司 文本框标注方法、装置和存储介质
CN111428717A (zh) * 2020-03-26 2020-07-17 京东方科技集团股份有限公司 文本识别方法、装置、电子设备及计算机可读存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239227A (zh) * 2021-06-02 2021-08-10 泰康保险集团股份有限公司 图像数据结构化方法、装置、电子设备及计算机可读介质
CN113239227B (zh) * 2021-06-02 2023-11-17 泰康保险集团股份有限公司 图像数据结构化方法、装置、电子设备及计算机可读介质
CN113392827A (zh) * 2021-06-22 2021-09-14 平安健康保险股份有限公司 一种文字识别方法、装置、设备及介质
CN113392827B (zh) * 2021-06-22 2024-07-05 平安健康保险股份有限公司 一种文字识别方法、装置、设备及介质
WO2023029116A1 (zh) * 2021-08-30 2023-03-09 广东艾檬电子科技有限公司 文本图像的排版方法、装置、电子设备及存储介质
CN113706660A (zh) * 2021-09-03 2021-11-26 北京有竹居网络技术有限公司 一种信息识别方法、装置、电子设备和存储介质
CN113850268A (zh) * 2021-09-29 2021-12-28 平安科技(深圳)有限公司 基于人工智能的文本识别排序方法、装置、设备及介质
CN113850268B (zh) * 2021-09-29 2024-05-31 平安科技(深圳)有限公司 基于人工智能的文本识别排序方法、装置、设备及介质
CN114943978A (zh) * 2022-05-13 2022-08-26 上海弘玑信息技术有限公司 一种表格重建的方法及电子设备
CN114943978B (zh) * 2022-05-13 2023-10-03 上海弘玑信息技术有限公司 一种表格重建的方法及电子设备
CN116092108A (zh) * 2023-03-20 2023-05-09 四川竺信档案数字科技有限责任公司 一种实体文档扫描生成pdf文件的方法、系统及存储介质

Similar Documents

Publication Publication Date Title
CN111985465A (zh) 文本识别方法、装置、设备及存储介质
CN110046529B (zh) 二维码识别方法、装置及设备
CN110705405B (zh) 目标标注的方法及装置
CN101558416B (zh) 移动通信设备的文本检测
CN107220640B (zh) 字符识别方法、装置、计算机设备和计算机可读存储介质
KR101617681B1 (ko) 히스토그램들을 갖는 다중 층 연결 요소들을 사용하는 텍스트 검출
CN111737478B (zh) 文本检测方法、电子设备及计算机可读介质
CN110941594A (zh) 一种视频文件的拆分方法、装置、电子设备及存储介质
CN101983507A (zh) 自动红眼检测
WO2010131435A1 (en) Pattern recognition apparatus and method therefor configured to recognize object and another lower-order object
CN114155546B (zh) 一种图像矫正方法、装置、电子设备和存储介质
CN103714327A (zh) 一种图像方向校正方法及系统
WO2022134771A1 (zh) 表格处理方法、装置、电子设备及存储介质
CN111507181B (zh) 票据图像的矫正方法、装置及计算机设备
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN111080665B (zh) 图像边框识别方法、装置、设备和计算机存储介质
US10509934B1 (en) Methods and apparatus for improving QR code locator detectability and/or finding the corners of a locator pattern
CN111915635A (zh) 支持自阅卷的试题解析信息生成方法及系统
CN113792659B (zh) 文档识别方法、装置及电子设备
CN113112511B (zh) 试卷批改的方法、装置、存储介质及电子设备
JP6474504B1 (ja) 手書文字認識システム
CN114445843A (zh) 固定版式的卡证图像文字识别方法和装置
CN113159029A (zh) 一种图片中局部信息精准抓取的方法和系统
CN109919164B (zh) 用户界面对象的识别方法及装置
CN114511877A (zh) 一种行为识别方法、装置、存储介质及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination