CN112115932A - 文本提取方法、装置、电子设备及存储介质 - Google Patents
文本提取方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112115932A CN112115932A CN202010839384.1A CN202010839384A CN112115932A CN 112115932 A CN112115932 A CN 112115932A CN 202010839384 A CN202010839384 A CN 202010839384A CN 112115932 A CN112115932 A CN 112115932A
- Authority
- CN
- China
- Prior art keywords
- frame
- keyword
- box
- text
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 47
- 238000001514 detection method Methods 0.000 claims abstract description 95
- 238000000034 method Methods 0.000 claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012937 correction Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000007689 inspection Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003702 image correction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/243—Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Abstract
本申请提供的一种文本提取方法、装置、电子设备及存储介质,应用于数据处理技术领域,所述方法包括:获取版面图像的关键字框以及文字检测框;将所述关键字框进行镜像翻转,得到所述关键字框的镜像框;将与所述镜像框存在重叠区域的至少一个所述文字检测框,作为所述关键字框相对应的键值框;对关键字框和所述键值框进行文本识别,获得所述版面图像的文本信息。本方案首先将关键字框进行镜像翻转得到镜像框,将镜像框存在重叠区域的文字检测框作为该关键字框的键值框,然后将关键字框和其对应的键值框进行文本提取,可以适用于各种版面的版本图像,可以高效且准确地对存在倾斜的证件的版面图像进行文本提取。
Description
技术领域
本申请属于数据处理技术领域,特别是涉及一种文本提取方法、装置、电子设备及存储介质。
背景技术
对具有固定版面的文本图像进行文本提取可以使用户快速获取证件中的文本信息,在先技术通常是通过运用一些行列对齐或者模板匹配的方式来对文本图像中的文本信息进行定位。
但是由于不同证件的版面排版不同,需要依赖于人工设置固有版面模板才能实现对于不同版面文本的格式化输出,因此这种方式对于固定版面的文本图像的适用性较低,并且对于文本图像质量要求较高,若图像的证件倾斜,也会影响文本提取的效果。
发明内容
有鉴于此,本申请第一方面提供一种文本提取方法,所述方法包括:
获取版面图像的关键字框以及文字检测框;
将所述关键字框进行镜像翻转,得到所述关键字框的镜像框;
将与所述镜像框存在重叠区域的至少一个所述文字检测框,作为所述关键字框相对应的键值框;
对关键字框和所述键值框进行文本识别,获得所述版面图像的文本信息。
可选的,在所述文字检测框存在多个的情况下;
所述将所述关键字框进行镜像翻转,得到所述关键字框的镜像框,包括:
将所述关键字框按照预设方向镜像翻转至少两次,得到所述关键字框的至少两个镜像框;
所述将与所述镜像框存在重叠区域的至少一个所述文字检测框,作为所述关键字框相对应的键值框,包括:
将与至少一个所述镜像框存在重叠区域的至少两个所述文字检测框,按照所述预设方向进行合并,得到所述关键字框相对应的键值框。
可选的,所述获取版面图像的关键字框以及文字检测框,包括:
对版面图像进行模糊检索,获取所述版面图像的关键字框,以及将所述版面图像输入至文字检测模型,获取所述版面图像的文字检测框。
可选的,在所述获取版面图像的关键字框以及文字检测框之前,还包括:
获取版面图像;
对所述版面图像进行旋转矫正。
可选的,所述文本信息包括所述关键字框的关键字信息以及所述键值框的键值信息,在所述对关键字框和所述键值框进行文本识别,获得所述版面图像的文本信息之后,还包括:
将所述关键字信息与所述键值信息按照预设格式进行排布,得到格式化的文本信息。
可选的,所述将所述关键字框进行镜像翻转,得到所述关键字框的镜像框,包括:
根据目标方向对所述关键字框的第一坐标值进行镜像变换,得到第二坐标值;
根据所述第二坐标值确定所述关键字框的镜像框。
可选的,在所述根据目标方向对所述关键字框的第一坐标值进行镜像变换,得到第二坐标值之前,还包括:
根据所述键值框相对于关键字框的位置关系,确定目标方向。
依据本申请第二方面,提供一种文本提取装置,所述装置包括:
获取模块,用于获取版面图像的关键字框以及文字检测框;
翻转模块,用于将所述关键字框进行镜像翻转,得到所述关键字框的镜像框;
处理模块,用于将与所述镜像框存在重叠区域的至少一个所述文字检测框,作为所述关键字框相对应的键值框;
识别模块,用于对关键字框和所述键值框进行文本识别,获得所述版面图像的文本信息。
可选的,在所述文字检测框存在多个的情况下;
所述翻转模块,还用于:
将所述关键字框按照预设方向镜像翻转至少两次,得到所述关键字框的至少两个镜像框;
所述处理模块,还用于:
将与至少一个所述镜像框存在重叠区域的至少两个所述文字检测框,按照所述预设方向进行合并,得到所述关键字框相对应的键值框。
可选的,所述获取模块,还用于:
对版面图像进行模糊检索,获取所述版面图像的关键字框,以及将所述版面图像输入至文字检测模型,获取所述版面图像的文字检测框。
可选的,所述装置,还包括:
预处理模块,用于:
获取版面图像;
对所述版面图像进行旋转矫正。
可选的,所述文本信息包括所述关键字框的关键字信息以及所述键值框的键值信息,所述装置,还包括:
输出模块,用于:将所述关键字信息与所述键值信息按照预设格式进行排布,得到格式化的文本信息。
可选的,所述翻转模块,还用于:
根据目标方向对所述关键字框的第一坐标值进行镜像变换,得到第二坐标值;
根据所述第二坐标值确定所述关键字框的镜像框。
可选的,所述翻转模块,还用于:
根据所述键值框相对于关键字框的位置关系,确定目标方向。
依据本申请第三方面,提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面任一所述的文本提取方法。
依据本申请第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述第一方面任一所述的文本提取方法。
针对现有技术,本申请具备如下优点:
本申请提供的一种文本提取方法、装置、电子设备及存储介质,本方案首先将关键字框进行镜像翻转得到镜像框,将镜像框存在重叠区域的文字检测框作为该关键字框的键值框,然后将关键字框和其对应的键值框进行文本提取,可以适用于各种版面的版本图像,可以高效且准确地对存在倾斜的证件的版面图像进行文本提取。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本申请实施例提供的一种文本提取方法的步骤流程图;
图2是本申请实施例提供的一种文本提取方法的效果示意图;
图3是本申请实施例提供的另一种文本提取方法的步骤流程图;
图4是本申请实施例提供的另一种文本提取方法的效果示意图之一;
图5是本申请实施例提供的另一种文本提取方法的效果示意图之二;
图6是本申请实施例提供的一种镜像框的获取方法的步骤流程图;
图7是本申请实施例提供的一种文本提取装置的结构框图;
图8是本申请实施例提供的一种电子设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
图1是本申请实施例提供的一种文本提取方法的步骤流程图,所述方法包括:
步骤101,获取版面图像的关键字框以及文字检测框。
在本申请实施例中,版面图像是对具有固定版面的卡证进行扫描或者拍摄等图像采集方式获取到的图像,具有固定版面的卡证是指具有刚性键值的卡片类型的证件,例如:身份证、驾驶证等,这些类型的证件中所包含的内容都是按照固定版面排布的,例如:姓名:张三、年龄:20岁、住址:某某街道101号等。进一步的,版面图像中的关键字框是指版面图像中描述信息类型的关键字信息所在的框体区域,关键字信息例如:姓名、年龄、住址等,对于同一种版面的证件,其所包含关键字信息是固定的。文字检测框是指版面图像中描述关键字信息所对应的文字内容所在的框体区域,文字内容例如:张三、20岁、某某街道101号等,对于同一种版面的不同证件,其所包含文字内容可以是不同的。
可以理解,对于同一种证件的版面图像而言,其所包含的关键字框相对证件所处的位置和大小是大致不变的,可能因为印刷等因素发生小幅度偏移。而文件检测框相对证件所处的位置和大小可能随着所包含文字内容的变化而变化,但是相对于其对应的关键字框所处的位置是大致不变的,例如:文字内容通常在证件中会临近于其所对应关键字的下侧、右侧等,具体可以针对不同类型证件进行设置,此处不做限定。
步骤102,将所述关键字框进行镜像翻转,得到所述关键字框的镜像框。
在本申请实施例中,镜像框是指将关键字框相对于某条边进行镜像翻转得到的框体。由于通常版面图像中证件的关键字框和所对应文字检测框是临近的,这是因为关键字框中的关键字是对于文字检测框中的文字内容的类型描述,若相距过远不利于人们理解文字内容;并且关键字框和所对应的文字检测框中间一般不会出现不相关的其他框体,以避免无关信息对于人们理解文字内容造成干扰。因此,可以对关键字框相对于文字检测框所在方向的边镜像翻转至少一次,从而得到大于或等于关键字框的镜像框,若镜像翻转一次,则镜像框和关键字框一样大,若镜像翻转多次,则镜像框比关键字框大。该镜像翻转的方向具体可以根据版面图像中所包含的证件类型设置,此处不做限定。
步骤103,将与所述镜像框存在重叠区域的至少一个所述文字检测框,作为所述关键字框相对应的键值框。
在本申请实施例中,重叠区域是指镜像框和文字检测框存在面积重叠的区域,该重叠区域的面积可以是小于或等于镜像框。键值框是指关键字框所对应文字内容所在的框体。由于镜像框是按照关键字框所对应文字检测框方向进行镜像翻转得到的,因此该镜像框会与文字检测框的部分区域重叠,从而可以将与镜像框存在重叠区域的文字检测框作为关键字框相对应的键值框。
可以理解,由于在对证件进行图像采集来获取版面图像时,可能由于角度倾斜等导致所得到的版面图像中的文字发生倾斜,导致关键字框和所对应的键值框可能处于相对于版面图像的一条斜线上,因此无法直接通过水平检测或者垂直检测直接确定关键字框所对应的键值框所在的位置。而本申请实施例中由于镜像框是相对于关键字框的侧边进行镜像翻转得到的,因此可以适应于不同倾斜程度的版面图像,将和镜像框存在重叠区域的文字检测框作为关键字框的键值框,可以对存在上下排列错位的版面进行精准识定位,从而可以快速且准确地定位到关键字框所对应的键值框。
示例性的,参照图2示出本申请实施例提供的一种文本提取方法的效果示意图,以其中的“核定载人数”、“外廓尺寸”、“检验记录”、“核定载质量”的四个关键字框进行示例性说明。具体的,分别将该四个关键字框进行镜像翻转后,可以得到虚线样式的镜像框,“核定载人数”的镜像框与“5人”的文字检测框重叠,因此“5人”文字检测框可以作为“核定载人数”的键值框,同理,“4522×1775×1467”文字检测框为“外廓尺寸”关键字框的键值框,“检验有效期至2017年7月粤K(01)”文字检测框为“检验记录”关键字框的键值框,“5000KG”为“核定载质量”关键字框的键值框。图中的其他关键字框如何确定键值框可以参照上述描述,此处不再赘述。
步骤104,对关键字框和所述键值框进行文本识别,获得所述版面图像的文本信息。
在本申请实施例中,在定位到关键字框和其所对应的键值框后,可以采用常规的文本识别技术对关键字框和键值框中的文本信息进行识别,从而提取版面图像中所包含的文本信息,具体文本识别技术可以根据实际需求确定,以本方案的可实现为准,此处不做限定。
本申请提供的一种文本提取方法,首先将关键字框进行镜像翻转得到镜像框,将镜像框存在重叠区域的文字检测框作为该关键字框的键值框,然后将关键字框和其对应的键值框进行文本提取,可以适用于各种版面的版本图像,可以高效且准确地对存在倾斜的证件的版面图像进行文本提取。
图3是本申请实施例提供的另一种文本提取方法的步骤流程图,应用于测速管理端,所述方法包括:
步骤201,获取版面图像。
在本申请实施例中,版面图像可以是需要进行文本提取时对证件进行图像采集得到的,也可以是预先对证件进行图像采集后存储的。例如在保险线上服务中,难免会需要用户上传例如身份证、驾照、户口本等类型的版面图像。
步骤202,对所述版面图像进行旋转矫正。
在本申请实施例中,为避免版面图像过于倾斜,影响后续处理的效果,因此可以在对版面图像进行文本提取前,对版面图像通过灰度矫正方法、图像系统矫正方法等常规图像矫正方法进行旋转矫正,从而减少版面倾斜对于文本提取的影响,提高对版面图像进行文本提取的准确性。
步骤203,对版面图像进行模糊检索,获取所述版面图像的关键字框,以及将所述版面图像输入至文字检测模型,获取所述版面图像的文字检测框。
在本申请实施例中,模糊检索是一种按照用户输入关键字的同义词进行检索的方法,同义词可以是预先配置的,例如:名字和姓名属于同义词,住址和地址属于同义词。可以根据预先配置以及用户输入的关键字从版面图像中获取相关的关键字框。然后通过预先训练的文字检测模型,将版面图像中获取出关键字框以外的文字检测框。本申请实施例通过使用模糊检索对版面图像进行紧缩可以提高搜索的精确性。文字检测模型可以是通过样文本字预先训练得到的深度学习模型,也可以是其他具有文字检测功能的机器模型,具体可以根据实际需求确定,此处不做限定。
步骤204,在所述文字检测框存在多个的情况下,将所述关键字框按照预设方向镜像翻转至少两次,得到所述关键字框的至少两个镜像框。
在本申请实施例中,预设方向是镜像翻转的方向,具体可以是根据版面图像中不同证件预先设置的。由于文字检测模型会将较长的文字内容识别为多个文字检测框,例如:“张三家住在某某街道101号”的较长文本内容,可能会被识别为“张三”、“住在某某街道”、“101号”的三个文字检测框,此时仅通过翻转一次得到的镜像框可能无法将三个文本检测框都定位到,因此此时需要增加镜像框来保证可以定位到这三个文字检测框。具体的,可以通过多次镜像翻转,以得到增长的镜像框。此处的多次镜像翻转是指在将关键字框按照特定方向进行镜像翻转一次后,再相对于得到的镜像框按照特定方向再次进行翻转,若需要继续镜像翻转,以次类推即可,从而得到多个镜像框,具体镜像翻转的次数可以是根据文字检测框的个数决定,也可以是按照实际需求预先配置的,此处不做限定。
步骤205,将与至少一个所述镜像框存在重叠区域的至少两个所述文字检测框,按照所述预设方向进行合并,得到所述关键字框相对应的键值框。
在本申请实施例中,由多个镜像框可以保证定位到长文本内容的多个文字检测框,定位到的每个文字检测框仅需要和多个镜像框中的至少一个存在重叠区域即可。然后将定位到的文字检测框进行合并,即可得到关键字框所对应长文本内容所在的键值框。具体在合并过程中,为了保证所得到的键值框中文本内容的语序正确,可以根据定位到的文字检测框所处的位置,按照镜像翻转的预设方向依次进行合并。
示例性的,参照图4,示出本申请实施例提供的另一种文本提取方法的效果示意图之一,其中由于“4522×1775×1467”的长文本内容被拆分为“4522×17”以及“75×1467”两个文字检测框,“检验有效期至2017年7月粤K(01)”被拆分为“检验有效期”、“至2017年7月”、“粤K(01)”的三个文字检测框。显然,此时仅通过将“外廓尺寸”进行一次镜像翻转得到的虚线样式的镜像框只能与“4522×17”的文字检测框重叠,无法定位到“75×1467”文字检测框,而“检验记录”一次镜像翻转得到的镜像框也只能与“检验有效期”文字检测框重叠,无法定位到“至2017年7月”、“粤K(01)”的两个文字检测框。
因此,参照图5,示出本申请实施例提供的另一种文本提取方法的效果示意图之二,通过将“外廓尺寸”关键字框镜像翻转两次得到两个连续的镜像框,其中右边的镜像不仅可以与“4522×17”文字检测框重叠,而且还与“75×1467”文字检测框重叠。而通过将“检测记录”关键字框进行四次镜像翻转得到的四个连续的镜像框,同样可以定位到“检验有效期”、“至2017年7月”、“粤K(01)”的三个文字检测框。可见,通过对关键字框进行多次镜像翻转可以定位到长文本内容的多个文字检测框,避免了得到的键值框出现遗漏的情况。
本申请实施例通过多次镜像翻转得到的多个镜像框可以定位到文本内容的多个文字检测框,避免了由于文本内容较长导致文本提取不完整的情况,进一步提高了对于版面图像进行文本提取的准确性。
步骤206,对关键字框和所述键值框进行文本识别,获得所述版面图像的文本信息。
该步骤可参照步骤104的详细描述,此处不再赘述。
可选的,所述文本信息包括所述关键字框的关键字信息以及所述键值框的键值信息。
步骤207,将所述关键字信息与所述键值信息按照预设格式进行排布,得到格式化的文本信息。
在本申请实施例中,预设格式是指关键字信息和键值信息的排布方式,可以将关键字信息放置在键值信息的左侧或者上侧等位置进行排布,从而可以实现对于证件的版面图像的格式化输出,便于用户进行浏览或结构化存储。
可选的,参照图6,在所述步骤203之后,还包括:
步骤208,根据所述键值框相对于关键字框的位置关系,确定目标方向。
在本申请实施例中,由于在不同的证件中关键字框和键值框之间的位置可能不同,例如通常键值框会位于关键字框的右边,或者键值框位于关键字框的下边。但为了保证后续镜像翻转得到的镜像框可以与键值框重叠,因此可以将键值框相对于关键字框的位置关系来确定后续进行镜像翻转的目标方向。例如:位置关系是键值框位于关键字框的右边,则目标方向为右方;若位置关系是键值框位于关键字框的下边,则目标方法为下方。
本申请实施例通过在依据键值框相对于关键字框的位置关系来确定后续进行镜像翻转的目标方法,保证了所得到的镜像框可以与键值框重叠,提高了文字检测的准确性。
步骤209,根据目标方向对所述关键字框的第一坐标值进行镜像变换,得到第二坐标值。
在本申请实施例中,第一坐标值为关键字框的像素点在版面图像中坐标值。通过依据目标方向将各第一坐标值进行镜像变换,例如:若目标方向为右方,关键字框的第一坐标值之间的最大横标差值为10,则给第一坐标值的横坐标增加10,即可得到第二坐标值;若目标若目标方向为下方,关键字框的第一坐标值之间的最大纵坐标差值为10,则给第一坐标值的纵坐标减去10,即可得到第二坐标值,以上只是示例性说明,具体可以实际需求确定,此处不做限定。
步骤210,根据所述第二坐标值确定所述关键字框的镜像框。
在本申请实施例中,将版面图像中第二坐标值所对应的像素点组成的图像作为关键字框的镜像框。
本申请实施例通过将关键字框的第一坐标值进行镜像变换来得到的镜像框,保证了所得到镜像框的准确性。
本申请提供的另一种文本提取方法,首先将关键字框进行镜像翻转得到镜像框,将镜像框存在重叠区域的文字检测框作为该关键字框的键值框,然后将关键字和其对应的键值框进行文本提取,从而可以高效且准确地对存在倾斜的证件的版面图像进行文本格式化输出。并在在版面图像中存在长文本内容时,通过对关键字框进行多次镜像翻转,可以有效定位长文本内容的多个文字检测框,进一步提高了对于版面图像进行文本提取的准确性,并且在处理前对版面图像进行倾斜矫正,进一步避免了内容倾斜对文本提取的影响。
图7是本申请实施例提供的一种文本提取装置30,所述装置包括:
获取模块301,用于获取版面图像的关键字框以及文字检测框。
翻转模块302,用于将所述关键字框进行镜像翻转,得到所述关键字框的镜像框。
处理模块303,用于将与所述镜像框存在重叠区域的至少一个所述文字检测框,作为所述关键字框相对应的键值框。
识别模块304,用于对关键字框和所述键值框进行文本识别,获得所述版面图像的文本信息。
可选的,在所述文字检测框存在多个的情况下;
所述翻转模块302,还用于:
将所述关键字框按照预设方向镜像翻转至少两次,得到所述关键字框的至少两个镜像框。
所述处理模块303,还用于:
将与至少一个所述镜像框存在重叠区域的至少两个所述文字检测框,按照所述预设方向进行合并,得到所述关键字框相对应的键值框。
可选的,所述获取模块301,还用于:
对版面图像进行模糊检索,获取所述版面图像的关键字框,以及将所述版面图像输入至文字检测模型,获取所述版面图像的文字检测框。
可选的,所述装置,还包括:
预处理模块305,用于:
获取版面图像;
对所述版面图像进行旋转矫正。
可选的,所述文本信息包括所述关键字框的关键字信息以及所述键值框的键值信息,所述装置,还包括:
输出模块306,用于:将所述关键字信息与所述键值信息按照预设格式进行排布,得到格式化的文本信息。
可选的,所述翻转模块302,还用于:
根据目标方向对所述关键字框的第一坐标值进行镜像变换,得到第二坐标值;
根据所述第二坐标值确定所述关键字框的镜像框。
可选的,所述翻转模块302,还用于:
根据所述键值框相对于关键字框的位置关系,确定目标方向。
本申请提供的一种文本提取装置,首先将关键字框进行镜像翻转得到镜像框,将镜像框存在重叠区域的文字检测框作为该关键字框的键值框,然后将关键字框和其对应的键值框进行文本提取,可以适用于各种版面的版本图像,可以高效且准确地对存在倾斜的证件的版面图像进行文本提取。
对于上述服务器的实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例还提供了一种电子设备,如图8所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,
存储器403,用于存放计算机程序;
处理器401,用于执行存储器403上所存放的程序时,实现如下步骤:
获取版面图像的关键字框以及文字检测框;将所述关键字框进行镜像翻转,得到所述关键字框的镜像框;将与所述镜像框存在重叠区域的至少一个所述文字检测框,作为所述关键字框相对应的键值框;对关键字框和所述键值框进行文本识别,获得所述版面图像的文本信息。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的文本提取方法。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的文本提取方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在文本中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。
Claims (10)
1.一种文本提取方法,其特征在于,所述方法包括:
获取版面图像的关键字框以及文字检测框;
将所述关键字框进行镜像翻转,得到所述关键字框的镜像框;
将与所述镜像框存在重叠区域的至少一个所述文字检测框,作为所述关键字框相对应的键值框;
对所述关键字框和所述键值框进行文本识别,获得所述版面图像的文本信息。
2.根据权利要求1所述的方法,其特征在于,在所述文字检测框存在多个的情况下;
所述将所述关键字框进行镜像翻转,得到所述关键字框的镜像框,包括:
将所述关键字框按照预设方向镜像翻转至少两次,得到所述关键字框的至少两个镜像框;
所述将与所述镜像框存在重叠区域的至少一个所述文字检测框,作为所述关键字框相对应的键值框,包括:
将与至少一个所述镜像框存在重叠区域的至少两个所述文字检测框,按照所述预设方向进行合并,得到所述关键字框相对应的键值框。
3.根据权利要求1所述的方法,其特征在于,所述获取版面图像的关键字框以及文字检测框,包括:
对版面图像进行模糊检索,获取所述版面图像的关键字框,以及将所述版面图像输入至文字检测模型,获取所述版面图像的文字检测框。
4.根据权利要求1所述的方法,其特征在于,在所述获取版面图像的关键字框以及文字检测框之前,还包括:
获取版面图像;
对所述版面图像进行旋转矫正。
5.根据权利要求1所述的方法,其特征在于,所述文本信息包括所述关键字框的关键字信息以及所述键值框的键值信息,在所述对所述关键字框和所述键值框进行文本识别,获得所述版面图像的文本信息之后,还包括:
将所述关键字信息与所述键值信息按照预设格式进行排布,得到格式化的文本信息。
6.根据权利要求1所述的方法,其特征在于,所述将所述关键字框进行镜像翻转,得到所述关键字框的镜像框,包括:
根据目标方向对所述关键字框的第一坐标值进行镜像变换,得到第二坐标值;
根据所述第二坐标值确定所述关键字框的镜像框。
7.根据权利要求6所述的方法,其特征在于,在所述根据目标方向对所述关键字框的第一坐标值进行镜像变换,得到第二坐标值之前,还包括:
根据所述键值框相对于关键字框的位置关系,确定目标方向。
8.一种文本提取装置,其特征在于,所述装置包括:
获取模块,用于获取版面图像的关键字框以及文字检测框;
翻转模块,用于将所述关键字框进行镜像翻转,得到所述关键字框的镜像框;
处理模块,用于将与所述镜像框存在重叠区域的至少一个所述文字检测框,作为所述关键字框相对应的键值框;
识别模块,用于对关键字框和所述键值框进行文本识别,获得所述版面图像的文本信息。
9.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7中任一所述的文本提取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现权利要求1至7中任一所述的文本提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010839384.1A CN112115932B (zh) | 2020-08-19 | 2020-08-19 | 文本提取方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010839384.1A CN112115932B (zh) | 2020-08-19 | 2020-08-19 | 文本提取方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112115932A true CN112115932A (zh) | 2020-12-22 |
CN112115932B CN112115932B (zh) | 2023-11-14 |
Family
ID=73804209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010839384.1A Active CN112115932B (zh) | 2020-08-19 | 2020-08-19 | 文本提取方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112115932B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016076093A (ja) * | 2014-10-07 | 2016-05-12 | 富士通株式会社 | 文字認識支援装置、文字認識支援プログラム及び文字認識支援方法 |
CN107798299A (zh) * | 2017-10-09 | 2018-03-13 | 平安科技(深圳)有限公司 | 票据信息识别方法、电子装置及可读存储介质 |
CN108427924A (zh) * | 2018-03-09 | 2018-08-21 | 华中科技大学 | 一种基于旋转敏感特征的文本回归检测方法 |
CN110135424A (zh) * | 2019-05-23 | 2019-08-16 | 阳光保险集团股份有限公司 | 倾斜文本检测模型训练方法和票证图像文本检测方法 |
CN110569850A (zh) * | 2019-08-20 | 2019-12-13 | 北京旷视科技有限公司 | 字符识别模板匹配方法、装置和文本识别设备 |
CN111027554A (zh) * | 2019-12-27 | 2020-04-17 | 创新奇智(重庆)科技有限公司 | 商品价签文字精确检测定位系统及定位方法 |
CN111079531A (zh) * | 2019-11-12 | 2020-04-28 | 泰康保险集团股份有限公司 | 数据结构化输出方法、装置、电子设备、存储介质 |
CN111507230A (zh) * | 2020-04-11 | 2020-08-07 | 创景未来(北京)科技有限公司 | 一种文档和表格数据的识别和提取方法及系统 |
-
2020
- 2020-08-19 CN CN202010839384.1A patent/CN112115932B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016076093A (ja) * | 2014-10-07 | 2016-05-12 | 富士通株式会社 | 文字認識支援装置、文字認識支援プログラム及び文字認識支援方法 |
CN107798299A (zh) * | 2017-10-09 | 2018-03-13 | 平安科技(深圳)有限公司 | 票据信息识别方法、电子装置及可读存储介质 |
CN108427924A (zh) * | 2018-03-09 | 2018-08-21 | 华中科技大学 | 一种基于旋转敏感特征的文本回归检测方法 |
CN110135424A (zh) * | 2019-05-23 | 2019-08-16 | 阳光保险集团股份有限公司 | 倾斜文本检测模型训练方法和票证图像文本检测方法 |
CN110569850A (zh) * | 2019-08-20 | 2019-12-13 | 北京旷视科技有限公司 | 字符识别模板匹配方法、装置和文本识别设备 |
CN111079531A (zh) * | 2019-11-12 | 2020-04-28 | 泰康保险集团股份有限公司 | 数据结构化输出方法、装置、电子设备、存储介质 |
CN111027554A (zh) * | 2019-12-27 | 2020-04-17 | 创新奇智(重庆)科技有限公司 | 商品价签文字精确检测定位系统及定位方法 |
CN111507230A (zh) * | 2020-04-11 | 2020-08-07 | 创景未来(北京)科技有限公司 | 一种文档和表格数据的识别和提取方法及系统 |
Non-Patent Citations (1)
Title |
---|
李建平: "抗打印扫描数字水印算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112115932B (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829453B (zh) | 一种卡证中文字的识别方法、装置以及计算设备 | |
CN112016438B (zh) | 一种基于图神经网络识别证件的方法及系统 | |
CN109685055B (zh) | 一种图像中文本区域的检测方法及装置 | |
US9626555B2 (en) | Content-based document image classification | |
US11227153B2 (en) | Automated systems and methods for identifying fields and regions of interest within a document image | |
CN110490190B (zh) | 一种结构化图像文字识别方法及系统 | |
US11210507B2 (en) | Automated systems and methods for identifying fields and regions of interest within a document image | |
CN113255642A (zh) | 一种用于人伤理赔的医疗票据信息整合方法 | |
KR102442350B1 (ko) | 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법 및 장치 | |
CN111222368A (zh) | 一种识别文档段落的方法、装置及电子设备 | |
CN113837151A (zh) | 表格图像处理方法、装置、计算机设备及可读存储介质 | |
CN114357174B (zh) | 基于ocr和机器学习的代码分类系统及方法 | |
CN112464927A (zh) | 一种信息提取方法、装置及系统 | |
CN115546809A (zh) | 基于单元格约束的表格结构识别方法及其应用 | |
CN115223183A (zh) | 一种信息提取方法、装置及电子设备 | |
CN113076961B (zh) | 一种图像特征库更新方法、图像检测方法和装置 | |
CN104899551B (zh) | 一种表单图像分类方法 | |
US20110099137A1 (en) | Graphical user interface component classification | |
CN117115823A (zh) | 一种篡改识别方法、装置、计算机设备和存储介质 | |
CN112115932B (zh) | 文本提取方法、装置、电子设备及存储介质 | |
CN114359912B (zh) | 基于图神经网络的软件页面关键信息提取方法及系统 | |
CN114220103B (zh) | 图像识别方法、装置、设备及计算机可读存储介质 | |
CN114495108A (zh) | 字符检测方法、装置、电子设备及可读介质 | |
CN113868411A (zh) | 合同比对方法、装置、存储介质及计算机设备 | |
CN110751140A (zh) | 字符批量识别方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |