CN112633118A - 一种文本信息提取方法、设备及存储介质 - Google Patents
一种文本信息提取方法、设备及存储介质 Download PDFInfo
- Publication number
- CN112633118A CN112633118A CN202011502975.6A CN202011502975A CN112633118A CN 112633118 A CN112633118 A CN 112633118A CN 202011502975 A CN202011502975 A CN 202011502975A CN 112633118 A CN112633118 A CN 112633118A
- Authority
- CN
- China
- Prior art keywords
- text
- detection
- standard
- detection frame
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 44
- 238000001514 detection method Methods 0.000 claims abstract description 358
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000006073 displacement reaction Methods 0.000 claims description 44
- 238000012216 screening Methods 0.000 claims description 35
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 14
- 238000012549 training Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种文本信息提取方法、设备及存储介质,通过获取待检测图像,确定待检测图像所对应的至少一个标准外接矩形框,其中,标准外接矩形框包含至少一个标准检测框;针对每个标准外接矩形框,根据标准外接矩形框调整预确定的检测框模板,得到预测检测框模板,并根据预测检测框模板确定各标准检测框对应的文本标识;根据各文本标识对待检测图像进行文本信息提取,解决了现有技术中对文本信息进行提取时,无法针对性的对有用信息进行提取的问题,通过检测框模板确定待检测图像中的各标准检测框的文本标识,通过文本标识实现对待检测图像中的文本信息的提取,无需对全部信息进行提取,节省了数据处理时间和资源,提高工作效率。
Description
技术领域
本发明实施例涉及图像处理技术,尤其涉及一种文本信息提取方法、设备及存储介质。
背景技术
随着人工智能技术的发展,深度学习技术的应用场景越来越广泛,例如,语音识别、文字识别、物体识别等等,深度学习技术为人们的生产、生活提供了巨大便利。随着深度学习的深入研究,文字识别技术日趋成熟,表格文本识别应用广泛。目前的文字识别技术首先通过文本定位检测模型,检测到文字的位置,然后通过对检测结果一一进行识别,最终得到文字的信息内容。
但是,针对文本中的文字信息,在实际应用中,用户可能并不需要知道或者使用全部的文字信息,所以存在其中一部分文字信息是有用的文字信息,一部分文字信息为无用的文字信息。现有的文字提取方式是对信息全部进行提取,而在文字信息中存在无用信息时,提取全部文字信息浪费时间和资源,降低工作效率。
发明内容
本发明提供一种文本信息提取方法、设备及存储介质,以实现对文本信息有针对性的提取,节省时间,提高工作效率。
第一方面,本发明实施例提供了一种文本信息提取方法,所述文本信息提取方法包括:
获取待检测图像,确定所述待检测图像所对应的至少一个标准外接矩形框,其中,所述标准外接矩形框包含至少一个标准检测框;
针对每个标准外接矩形框,根据所述标准外接矩形框调整预确定的检测框模板,得到预测检测框模板,并根据所述预测检测框模板确定各所述标准检测框对应的文本标识;
根据各所述文本标识对所述待检测图像进行文本信息提取。
第二方面,本发明实施例还提供了一种计算机设备,该设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例中任一所述的一种文本信息提取方法。
第三方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的一种文本信息提取方法。
本发明实施例提供了一种文本信息提取方法、设备及存储介质,通过获取待检测图像,确定待检测图像所对应的至少一个标准外接矩形框,其中,标准外接矩形框包含至少一个标准检测框;针对每个标准外接矩形框,根据标准外接矩形框调整预确定的检测框模板,得到预测检测框模板,并根据预测检测框模板确定各标准检测框对应的文本标识;根据各文本标识对待检测图像进行文本信息提取,解决了现有技术中对文本信息进行提取时,无法针对性的对有用信息进行提取,只能对所有信息全部进行提取的问题,通过检测框模板确定待检测图像中的各标准检测框的文本标识,通过文本标识实现对待检测图像中的文本信息针对性提取,无需对全部信息进行提取,节省了数据处理时间和资源,提高工作效率。
附图说明
图1是本发明实施例一中的一种文本信息提取方法的流程图;
图2是本发明实施例一中的一种标准外接矩形框和标准检测框的示例图;
图3是本发明实施例二中的一种文本信息提取方法的流程图;
图4是本发明实施例二中的一种文本信息提取方法中确定各标准检测框的实现流程图;
图5是本发明实施例二中的一种文本信息提取方法中确定目标检测框模板的实现流程图;
图6是本发明实施例二中的一种待检测图像的示例图;
图7是本发明实施例二中的一种待检测图像中各文本检测框的展示图;
图8是本发明实施例二中的一种目标检测模板与标准检测框进行匹配时的效果展示图;
图9是本发明实施例三中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种文本信息提取方法的流程图,本实施例可适用于对图像中的文本信息进行提取的情况,该方法可以由文本信息提取装置来执行,具体包括如下步骤:
步骤S110、获取待检测图像,确定所述待检测图像所对应的至少一个标准外接矩形框。
其中,所述标准外接矩形框包含至少一个标准检测框;
在本实施例中,待检测图像可以理解为有检测需求的图像,例如,发票图像、证件图像等。实际生活或工作中,在进行数据录入时,为了节省人力,提高工作效率,通常将需要录入信息的文件或文档进行图像采集,得到待检测图像,通过文字识别技术将待检测图像中的文字进行识别,进而实现数据自动化录入。在对待检测图像进行文字识别时,通过生成矩形框,对待检测图像中的文字进行框选,进而实现文字识别。标准检测框可以理解为对待检测图像可能存在文字的地方进行框选的矩形框,此时的待检测图像可以是直接使用,确定标准检测框,也可以去除异常点后确定标准检测框;标准外接矩形框可以理解为一个或者多个标准检测框的最小外接矩形框。图2提供了一种标准外接矩形框和标准检测框的示例图,如图2所示,标准外接矩形框10中包含了四个标准检测框11。
预先通过对图像进行采集得到待检测图像,将其存储到存储空间(例如,数据库,本地存储空间等),在需要对待检测图像进行信息提取时,从存储空间获取待检测图像;或者,在需要进行信息提取时,直接采集待检测图像,例如,控制照相机或摄像机等图像采集装置进行拍照,获得待检测图像。
步骤S120、针对每个标准外接矩形框,根据标准外接矩形框调整预确定的检测框模板,得到预测检测框模板,并根据预测检测框模板确定各标准检测框对应的文本标识。
在本实施例中,检测框模板可以理解为预先设定的带有一个或多个检测框的模板,检测框模板根据现有的待检测图像的种类形成,例如待检测图像为发票图像或身份证图像时,检测框模板不同,预先根据发票图像或身份证图像设置对应的检测框模板。预测检测框模板可以理解为与检测框模板形状、包含的各检测框位置和数量相同,仅比例不同的模板,即预测检测框模板可通过对检测框模板进行比例换算及位移得到。文本标识可以理解为对每个标准检测框中的文字信息所属类别的标记,可以是名称、日期等直接标识检测框中文字内容的标识信息,也可以是数字或字母等编号。由于检测框模板是预先设置好的,所以其包含的各个检测框的位置、以及检测框所检测的内容是已知的。
在对待检测图像进行信息提取时,首先需要知道其对应的检测框模板。在得到待检测图像对应的标准外接矩形框后,如果标准外接矩形框仅有一个,直接根据标准外接矩形框的宽度、高度,顶点位置坐标等信息调整检测框模板,得到与标准外接矩形框大小、位置一致的预测检测框模板,通过将预测检测框模板与标准外接矩形框进行叠加,在预测检测框模板中的检测框与标准外接矩形框中的标准检测框重合度达到一定要求后,确定预测检测框模板与标准外接矩形框匹配,所以预测检测框模板中的各检测框的标识即为对应的各标准检测框的文本标识。
在图像采集的过程中,由于距离原因导致采集的图像中文本的大小并不相同,例如,同一张带有文字的A4纸,距离10cm和50cm进行拍摄,得到的图像中字的大小不同,所以进行文字识别时,检测文字的矩形框的大小也不同。所以需要对检测框模板进行调整,使其与标准外接矩形框大小和位置一致,如果不进行调整,会出现检测框模板中的一个检测框过大,覆盖了待检测图像中的多个标准检测框,或者检测框模板中的一个检测框过小,无法与待检测图像中的标准检测框进行匹配。
步骤S130、根据各文本标识对待检测图像进行文本信息提取。
在本实施例中,文本信息可以理解为待检测图像中的数字、文字、字母等信息。在确定每个标准检测框对应的文本标识后,在提取文本信息时,可以知道每个标准检测框内的信息所属类型,直接对需要的信息进行提取。例如,对于发票图像,如果仅需要知道日期,那么直接根据文本信息提取对应的标准检测框中的日期信息;或者,标准检测框的文本标识为数字,对于发票图像,需要提取日期,日期对应的标准检测框的文本标识为9,仅需要提取文本标识为9的标准检测框中的信息。
本发明实施例提供了一种文本信息提取方法,通过获取待检测图像,确定待检测图像所对应的至少一个标准外接矩形框,其中,标准外接矩形框包含至少一个标准检测框;针对每个标准外接矩形框,根据标准外接矩形框调整预确定的检测框模板,得到预测检测框模板,并根据预测检测框模板确定各标准检测框对应的文本标识;根据各文本标识对待检测图像进行文本信息提取,解决了现有技术中对文本信息进行提取时,无法针对性的对有用信息进行提取,只能对所有信息全部进行提取的问题,通过检测框模板确定待检测图像中的各标准检测框的文本标识,通过文本标识实现对待检测图像中的文本信息针对性提取,无需对全部信息进行提取,节省了数据处理时间和资源,提高工作效率,通过对检测框模板进行调整,使检测框模板更适合待检测图像,提高识别精度和效率。
实施例二
图3为本发明实施例二提供的一种文本信息提取方法的流程图。本实施例的技术方案在上述技术方案的基础上进一步细化,具体主要包括如下步骤:
步骤S201、获取待检测图像,根据待检测图像和预训练的文本检测模型确定文本外接矩形框,文本外接矩形框包含至少一个文本检测框。
在本实施例中,文本检测模型可以理解为预先根据大量文本进行训练得到的、基于深度学习的神经网络模型。文本检测框可以理解为直接对待检测图像中可能存在文字的地方进行框选的矩形框,文本外接矩形框可以理解为一个或者多个文本检测框的最小外接矩形框。
获取待检测图像,通过训练好的文本检测模型对待检测图像进行处理,得到一个或多个文本检测框,根据各文本检测框得到文本外接矩形框。文本检测模型的训练方式可以是:1、获取所检验文本的图像;2、数据标注:采用矩形框将图像中所有文字在图像中标出,对于连续的文字标在一个矩形框中;3、模型训练:采用标注好的训练数据,训练基于深度学习的待训练文本检测模型,得到训练好的文本检测模型。
进一步地,根据待检测图像和预训练的文本检测模型确定文本外接矩形框可通过下述方式实施:
将待检测图像输入到文本检测模型中,得到文本检测模型输出的各文本检测框;根据各文本检测框的顶点坐标中的最大横坐标、最小横坐标、最大纵坐标、最小纵坐标确定文本外接矩形框。
在本实施例中,文本检测框为矩形框,所以存在四个顶点,顶点坐标为其中任一顶点的坐标,在已知一个顶点坐标、长度、宽度的情况下可以确定文本检测框,此顶点是左上顶点、右上顶点、左下顶点和右下顶点需预先已知。
将待检测图像输入到文本检测模型后,文本检测模型根据预先学习的数据处理方法将待校测图像中的文字进行识别检测,得到各文本检测框;然后确定各文本检测框的顶点坐标,本申请实施例中顶点坐标以左上角顶点的顶点坐标为例,根据顶点坐标中最大横坐标、最小横坐标、最大纵坐标、最小纵坐标确定文本外接矩形框。
步骤S202、判断文本外接矩形框的宽度与高度的比值是否不在预设阈值范围内,若是,执行步骤S203;否则,执行步骤S206。
在本实施例中,预设阈值范围可以理解为预先确定的数值,此数值为预先收集与待检测图像相同种类、一定数量的图像,对这些图像利用文本检测模型进行文本检测,得到每张图像中相应的矩形检测框,根据每张图像中的各矩形检测框确定每张图像的外接矩形框,计算所有外接矩形框的宽度与高度的比值,取所有比值的均值作为标准值,预设阈值范围根据标准值设置,为标准值的合理误差范围。
步骤S203、从预设筛选方向集合中选取至少一个预设筛选方向。
步骤S204、针对每个预设筛选方向,根据预设筛选方向和文本外接矩形框确定对应的各标准检测框。
在本实施例中,预设筛选方向可以理解为预先设置好的方向,用来筛选文本检测框;预设筛选方向集合可以理解为存储一个或多个预设筛选方向的集合。预设筛选方向可以是从下向上筛选,从上向下筛选,从左到右筛选,从右到左筛选,上下一起筛选,左右一起筛选等。
从预设筛选方向集合中选择一个或者多个预设筛选方向,每个预设筛选方向采用同样的方式对文本外接矩形框进行筛选,得到标准检测框。根据预设筛选方向筛选文本外接矩形框中的各文本检测库,得到符合要求的标准检测框。针对每个预设筛选方向,筛选出一组标准检测框,若预设筛选方向为多个,得到多组标准检测框。
进一步地,图4提供了一种文本信息提取方法中确定各标准检测框的实现流程图,根据预设筛选方向和文本外接矩形框确定对应的各标准检测框具体包括如下步骤:
步骤S2041、根据预设筛选方向筛选文本外接矩形框内的文本检测框,得到至少一个目标文本框。
步骤S2042、基于各目标文本框构成新的文本外接矩形框。
步骤S2043、判断新的文本外接矩形框的宽度与高度比值是否不在预设阈值范围内,若是,返回步骤S2041;否则,执行步骤S2044。
步骤S2044、将新的文本外接矩形框对应的各目标文本框确定为标准检测框。
以预设筛选方向为从上到下为例说明标准检测框的确定方式:去除文本外接矩形框中处于最上方的文本检测框,将剩余的文本检测框作为目标文本框,根据各目标文本框的顶点坐标确定新的文本外接矩形框,判断新的文本外接矩形框的宽度与高度比值是否在预设阈值范围内,如果在预设阈值范围内,将构成新的文本外接矩形框的各目标文本框确定为标准检测框。如果不在预设阈值范围内,再次去除新的文本外接矩形框中的处于最上方的文本检测框,得到目标文本框,直到文本外接矩形框的宽度与高度比值在预设阈值范围内。以预设筛选方向为左右一起筛选为例说明标准检测框的确定方式:先去除文本外接矩形框中处于最左面的文本检测框,如果新的文本外接矩形框的宽度与高度比值仍然不在预设阈值范围内,再次去除最右面的文本检测框,通过左右依次去除的方式确定标准检测框。
步骤S205、将各标准检测框构成的外接矩形框确定为标准外接矩形框,并执行步骤S207。
步骤S206、将此文本外接矩形框确定为标准外接矩形框。
将宽度和高度比值在预设阈值范围内的文本外接矩形框确定为标准外接矩形框。针对每个预设筛选方向,得到一个标准外接矩形框,若预设筛选方向为多个,得到多个标准外接矩形框。
步骤S207、针对每个标准外接矩形框,根据标准外接矩形框的宽度与检测框模板的宽度比值对检测框模板的宽度和顶点纵坐标进行缩放。
步骤S208、根据标准外接矩形框的高度与检测框模板的高度比值对检测框模板的高度和顶点横坐标进行缩放。
步骤S209、根据缩放后的检测框模板的宽度、高度、顶点纵坐标和顶点横坐标确定预测检测框模板。
由于标准外接矩形框与检测框模板的大小和位置不一致,所以对检测框模板的大小和位置进行调整,得到大小和位置一致的预测检测框模板。确定标准外接矩形框的宽度与检测框模板的宽度比值,将检测框模板的宽度乘以宽度比值,得到缩放后的宽度,将检测框模板的一个顶点的顶点纵坐标乘以宽度比值,得到缩放后的顶点坐标。确定标准外接矩形框的高度与检测框模板的高度比值,将检测框模板的高度乘以高度比值,得到缩放后的高度,将检测框模板中同一个顶点的顶点横坐标乘以高度比值,得到缩放后的顶点坐标。根据缩放后的检测框模板的宽度、高度、顶点纵坐标和顶点横坐标形成预测检测框模板。
示例性的,提供一种检测框模板的确定方式:收集一定量的、与待检测图像种类相同的图片,对这些图片利用文本检测模型进行文本检测,得到每张图片中相应的文本检测框;根据处于同一位置的所有多个文本检测框计算顶点坐标均值与长宽均值,根据顶点坐标均值和长宽坐标均值确定预测框模板,在已知长宽的情况下,顶点坐标只需要一个顶点的坐标即可。例如,在图片1中,处于A位置的文本检测框A1的顶点坐标、长度和宽度已知,在图片2中,处于A位置的文本检测框A2的顶点坐标、长度和宽度已知,计算A1和A2的顶点坐标、长度和宽度的均值,得到检测框模板中处于A位置的检测框,同理,得到多个位置的检测框,进而得到检测框模板。
步骤S210、根据预测检测框模板、各标准检测框和预设位移集合确定目标检测模板。
在本实施例中,预设位移集合可以理解为存储了一个或者多个位移值的集合,例如2个像素、4个像素等等。目标检测模板可以理解为预测检测框模板在经过移动后得到的与标准检测框相匹配的模板;根据预设位移集合控制预测检测框模板进行位移,将位移后的预测检测框模板与标准检测框进行匹配,将匹配度较高的预测检测框模板作为目标检测模板。
步骤S211、根据目标检测模板中各目标检测框的目标标识确定各标准检测框对应的文本标识。
在本实施例中,目标检测框可以理解为目标检测模板中的矩形检测框;目标标识可以理解为目标检测框的标识信息,例如,名称、日期、1、2、A、B等。各目标检测框与各标准检测框的关系为一一匹配,在已知目标检测框的目标标识后,将目标标识作为与其匹配的标准检测框的文本标识。
进一步地,图5提供了一种文本信息提取方法中确定目标检测框模板的实现流程图,根据预测检测框模板、各标准检测框和预设位移集合确定目标检测框模板具体包括如下步骤:
步骤S2101、获取预设位移集合中的首个滑动位移,将首个滑动位移作为当前滑动位移。
在本实施例中,滑动位移可以理解为预设位移集合中的一个数值,用来确定预测检测框模板的移动距离;当前滑动位移可以理解为当前控制预测检测框模板移动距离。预设位移集合中存储了多个滑动位移,每次控制预测检测框模板根据一个滑动位移移动。将预设位移集合中的第一个滑动位移作为当前滑动位移。
步骤S2102、根据预测检测框模板、各标准检测框和当前滑动位移确定滑动检测框模板和对应的匹配分数。
在本实施例中,滑动检测框模板可以理解为预测检测框模板进行移动(滑动)后得到的模板,滑动检测框模板中包含了一个或者多个滑动检测框;匹配分数可以理解为衡量滑动检测框模板与各标准检测框的匹配度的值。
控制预测检测框模板按照当前滑动位移进行滑动,得到滑动检测框模板;根据滑动检测框模板中的滑动检测框与标准检测框的交集和并集确定匹配分数。滑动位移可以是向左、向右、向上、向下等不同方向。
步骤S2103、判断匹配分数是否大于设定的分数阈值,若是,执行步骤S2104;否则,执行步骤S2105。
步骤S2104、确定匹配分数所对应的滑动检测框模板为目标检测模板。
步骤S2105、将当前滑动位移的下一位移作为新的当前滑动位移,并返回步骤S2102。
在本实施中,分数阈值可以理解为判断匹配分数是否合格的数值,预先根据大量的实验选择合适的数值。比较匹配分数与设定的分数阈值的大小,如果大于分数阈值,将匹配分数所对应的滑动检测框模板确定为目标检测模板;如果小于等于分数阈值,将当前滑动位移的下一位移作为新的当前滑动位移,重新控制预测检测框模板滑动,直到得到目标检测模板。若根据所有滑动位移进行滑动后仍然不能得到目标检测模板,控制检测框模板根据下一个标准外接矩形框进行匹配,得到匹配分数。
在确定文本标识时,对待检测图像中的文本检测框进行筛选,得到至少一个标准外接矩形框,首先根据一个标准外接矩形框调整检测框模板,得到预测检测框模板,然后根据预设位置集合控制预测检测框模板进行滑动,得到第一个滑动检测框模板,然后根据滑动检测框模板与标准检测框确定匹配分数,当匹配分数大于分数阈值,确定目标检测框模板,进而确定标准检测框的文本标识,此时终止后续的操作及判断,节省时间,提高检测框模板匹配的鲁棒性。如果根据第一个滑动检测框模板无法得到目标检测框,控制预测检测框模板滑动得到第二个滑动检测框模板;如果根据第一个标准外接矩形框无法确定文本标识,对第二个标准外接矩形框采用同样的方式进行处理判断,直到确定文本标识。在文本标识确定过程中可以将滑动步长、预设筛选方向均设置多个,并在实际确定文本标识过程中选择多个,尽可能覆盖所有可能性,提高准确率。
进一步地,根据预测检测框模板、各标准检测框和当前滑动位移确定滑动检测框模板和对应的匹配分数可通过下述方式实施:
根据预测检测框模板的各顶点坐标及标准外接矩形框的各顶点坐标确定预测检测框模板的初始滑动位置;以初始滑动位置为起始点,控制预测检测框模板根据当前滑动位移在待检测图像中的各标准检测框上进行滑动,获得滑动检测框模板;确定滑动检测框模板中各滑动检测框与各标准检测框的交并比之和以及对应的匹配数量,其中,交并比为滑动检测框与标准检测框的交集面积与并集面积的比值;将交并比之和与对应的匹配数量的乘积确定为匹配分数。
在本实施例中,初始滑动位置可以理解为预测检测框模板在进行滑动时的初始位置。匹配数量可以理解为滑动检测框和标准检测框能够匹配上的数量,例如滑动检测框为1、2、3、4、5,标准检测框为a、b、c、d、e,依次判断1与a、b、c、d、e的交集是否为0,若都为0,确定1没有匹配上,否则分别计算交集不为0的交并比,保留交并比最大的匹配对,例如1和a,确定匹配数量为1;然后采用相同的方式继续判断2、3、4、5与a、c、d、e中是否存在匹配上的检测框,直到判断完所有检测框。
确定预测检测框模板的各顶点坐标的横坐标均值和纵坐标均值,确定标准外接矩形框的各顶点坐标的横坐标均值和纵坐标均值,根据两组横纵坐标均值确定初始滑动位置。控制预测检测框模板先移动到初始滑动位置,然后控制预测检测框模板根据当前滑动位移在待检测图像中的各标准检测框上进行滑动,得到滑动检测框模板,确定滑动检测框模板中滑动检测框与标准检测框的交集面积和并集面积的比值及相应的匹配数量,将比值作为交并比,所有交并比的和值乘以匹配数量,得到匹配分数。为了防止某些框存在误判,取所有检测框的最大交并比之和计算本次滑动的匹配分数,能够很好地保留所有框的整体信息。
进一步地,根据预测检测框模板的各顶点坐标及标准外接矩形框的各顶点坐标确定预测检测框模板的初始滑动位置,可通过下述方式实施:
根据预测检测框模板的各顶点坐标确定第一横坐标均值和第一纵坐标均值;根据标准外接矩形框的各顶点坐标确定第二横坐标均值和第二纵坐标均值;根据第二横坐标与第一横坐标的差值确定横向偏移量,根据第二纵坐标与第一纵坐标的差值确定纵向偏移量;控制预测检测框模板根据横向偏移量和纵向偏移量分别进行移动,得到初始滑动位置。
在本实施例中,横向偏移量可以理解为预测检测框模板相对于标准外接矩形框在横轴方向的偏移;横向偏移量可以理解为预测检测框模板相对于标准外接矩形框在纵轴方向的偏移。
确定预测检测框模板的四个顶点的横坐标和纵坐标,计算四个顶点的横坐标的均值,得到第一横坐标均值;计算四个顶点的纵坐标的均值,得到第一纵坐标均值。确定标准外接矩形框的四个顶点的横坐标和纵坐标,计算四个顶点的横坐标的均值,得到第二横坐标均值;计算四个顶点的纵坐标的均值,得到第二纵坐标均值。计算第二横坐标与第一横坐标的差值,将此差值确定为横向偏移量,计算第二纵坐标与第一纵坐标的差值,将此差值确定为纵向偏移量;控制预测检测框模板根据横向偏移量和纵向偏移量分别进行移动,移动后的位置为初始滑动位置。
步骤S212、根据所接收的提取指令确定对应的文本标识。
在本实施例中,提取指令可以理解为用来指示提取待检测图像中那一部分数据的计算机指令,可以是用户通过手动、语音输入的,也可以是预先设置好的,例如,对于身份证图像,仅需要提取身份证号码,所以预先将提取指令设置为提取身份证号码。根据对提取指令的解析,确定所要提取的内容对应的文本标识。
步骤S213、根据文本标识从待检测图像中截取目标图像。
在本实施例中,目标图像可以理解为待检测图像中包含所要识别的文本信息的部分图像。截取目标图像的方式可以是:文本标识为9,将文本标识为9的标准检测框所在的位置作为目标图像截取下来,在截取目标图像时,可以相对标准检测框的大小进行扩充再截取,得到的目标图像比标准检测框更大一些,避免信息遗漏。或者,在截取目标图像时,文本标识为9,但是未找到文本标识为9的标准检测框,仅有其他标准检测框的文本标识,例如文本标识8,在检测框模板上,文本标识8和文本标识9的位置固定,已知文本标识8,根据位置关系换算,可以得到文本标识9的位置,进而截取目标图像。
步骤S214、基于目标图像和预训练的文字识别模型确定文本信息。
在本实施例中,文字识别模型可以理解为预先训练好的可以识别文字的深度学习神经网络模型。文字识别模型训练过程可以是:1、获取由文本检测得到的带有文字的文本框;2数据标注:对所有文字建立“汉字:ID”映射表;3、模型训练:采用标注好的训练数据,训练基于深度学习的文字识别模型。将目标图像输入到预先训练好的文字识别模型中,得到模型输出的文本信息。
示例性的,图6提供了一种待检测图像的示例图,待检测图像为购车发票的图像;图7提供了一种待检测图像中各文本检测框的展示图,图中的各文本检测框21对待检测图像中的各文本信息进行了框选,图中的多个连续文字、数字合并为一个文本检测框,图中存在的类似矩形框均可看做文本检测框21;图8提供了一种目标检测模板与标准检测框进行匹配时的效果展示图,待检测图像31中包含了标准检测框311,目标检测模板32中的目标检测框321与标准检测框311分别对文本信息进行了框选,目标检测框321与标准检测框311匹配,目标检测框321的目标标识即为标准检测框311的文本标识,图中仅给出了一个目标检测框321与一个标准检测框311的示例,实际应用中可能包含多个目标检测框321与多个标准检测框311。
本发明实施例提供了一种文本信息提取方法,通过获取待检测图像,确定待检测图像所对应的至少一个标准外接矩形框,其中,标准外接矩形框包含至少一个标准检测框;针对每个标准外接矩形框,根据标准外接矩形框调整预确定的检测框模板,得到预测检测框模板,并根据预测检测框模板确定各标准检测框对应的文本标识;根据各文本标识对待检测图像进行文本信息提取,解决了现有技术中对文本信息进行提取时,无法针对性的对有用信息进行提取,只能对所有信息全部进行提取的问题,通过检测框模板确定待检测图像中的各标准检测框的文本标识,通过文本标识实现对待检测图像中的文本信息针对性提取,无需对全部信息进行提取,节省了数据处理时间和资源,提高工作效率。通过对检测框模板进行调整,使检测框模板更适合待检测图像,提高识别精度和效率。
实施例三
图9为本发明实施例三提供的一种计算机设备的结构示意图,如图9所示,该设备包括处理器40、存储器41、输入装置42和输出装置43;设备中处理器40的数量可以是一个或多个,图9中以一个处理器40为例;设备中的处理器40、存储器41、输入装置42和输出装置43可以通过总线或其他方式连接,图9中以通过总线连接为例。
存储器41作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的文本信息提取方法对应的程序指令/模块。处理器40通过运行存储在存储器41中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的文本信息提取方法。
存储器41可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器41可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器41可进一步包括相对于处理器40远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置42可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置43可包括显示屏等显示设备。
实施例四
本发明实施例四还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种文本信息提取方法,该方法包括:
获取待检测图像,确定所述待检测图像所对应的至少一个标准外接矩形框,其中,所述标准外接矩形框包含至少一个标准检测框;
针对每个标准外接矩形框,根据所述标准外接矩形框调整预确定的检测框模板,得到预测检测框模板,并根据所述预测检测框模板确定各所述标准检测框对应的文本标识;
根据各所述文本标识对所述待检测图像进行文本信息提取。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的文本信息提取方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述文本信息提取装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (12)
1.一种文本信息提取方法,其特征在于,包括:
获取待检测图像,确定所述待检测图像所对应的至少一个标准外接矩形框,其中,所述标准外接矩形框包含至少一个标准检测框;
针对每个标准外接矩形框,根据所述标准外接矩形框调整预确定的检测框模板,得到预测检测框模板,并根据所述预测检测框模板确定各所述标准检测框对应的文本标识;
根据各所述文本标识对所述待检测图像进行文本信息提取。
2.根据权利要求1所述的方法,其特征在于,所述确定所述待检测图像所对应的至少一个标准外接矩形框,包括:
根据所述待检测图像和预训练的文本检测模型确定文本外接矩形框,所述文本外接矩形框包含至少一个文本检测框;
若所述文本外接矩形框的宽度与高度的比值不在预设阈值范围内,从预设筛选方向集合中选取至少一个预设筛选方向;
针对每个预设筛选方向,根据所述预设筛选方向和文本外接矩形框确定对应的各标准检测框;
将各所述标准检测框构成的外接矩形框确定为标准外接矩形框。
3.根据权利要求2所述的方法,其特征在于,所述根据所述待检测图像和预训练的文本检测模型确定文本外接矩形框,包括:
将所述待检测图像输入到文本检测模型中,得到所述文本检测模型输出的各文本检测框;
根据各所述文本检测框的顶点坐标中的最大横坐标、最小横坐标、最大纵坐标、最小纵坐标确定文本外接矩形框。
4.根据权利要求2所述的方法,其特征在于,所述根据所述预设筛选方向和文本外接矩形框确定对应的各标准检测框,包括:
根据所述预设筛选方向筛选所述文本外接矩形框内的文本检测框,得到至少一个目标文本框;
基于各所述目标文本框构成新的文本外接矩形框;
如果所述新的文本外接矩形框的宽度与高度比值不在预设阈值范围内,则返回执行目标文本框的确定操作;否则,将所述新的文本外接矩形框对应的各目标文本框确定为标准检测框。
5.根据权利要求1所述的方法,其特征在于,所述根据所述标准外接矩形框调整预确定的检测框模板,得到预测检测框模板,包括:
根据所述标准外接矩形框的宽度与检测框模板的宽度比值对所述检测框模板的宽度和顶点纵坐标进行缩放;
根据所述标准外接矩形框的高度与所述检测框模板的高度比值对所述检测框模板的高度和顶点横坐标进行缩放;
根据缩放后的检测框模板的宽度、高度、顶点纵坐标和顶点横坐标确定预测检测框模板。
6.根据权利要求1所述的方法,其特征在于,所述根据所述预测检测框模板确定各所述标准检测框对应的文本标识,包括:
根据所述预测检测框模板、各所述标准检测框和预设位移集合确定目标检测模板;
根据所述目标检测模板中各目标检测框的目标标识确定各标准检测框对应的文本标识。
7.根据权利要求6所述的方法,其特征在于,所述根据所述预测检测框模板、各所述标准检测框和预设位移集合确定目标检测模板,包括:
获取预设位移集合中的首个滑动位移,将所述首个滑动位移作为当前滑动位移;
根据所述预测检测框模板、各所述标准检测框和所述当前滑动位移确定滑动检测框模板和对应的匹配分数;
当所述匹配分数大于设定的分数阈值时,确定所述匹配分数所对应的滑动检测框模板为目标检测模板;
否则,将所述当前滑动位移的下一位移作为新的当前滑动位移,返回执行滑动检测框模板和对应的匹配分数的确定操作。
8.根据权利要求7所述的方法,其特征在于,所述根据所述预测检测框模板、各所述标准检测框和所述当前滑动位移确定滑动检测框模板和对应的匹配分数,包括:
根据所述预测检测框模板的各顶点坐标及标准外接矩形框的各顶点坐标确定所述预测检测框模板的初始滑动位置;
以所述初始滑动位置为起始点,控制所述预测检测框模板根据所述当前滑动位移在待检测图像中的各标准检测框上进行滑动,获得滑动检测框模板;
确定所述滑动检测框模板中各滑动检测框与各标准检测框的交并比之和以及对应的匹配数量,其中,所述交并比为所述滑动检测框与标准检测框的交集面积与并集面积的比值;
将所述交并比之和与对应的匹配数量的乘积确定为匹配分数。
9.根据权利要求8所述的方法,其特征在于,所述根据所述预测检测框模板的各顶点坐标及标准外接矩形框的各顶点坐标确定所述预测检测框模板的初始滑动位置,包括:
根据所述预测检测框模板的各顶点坐标确定第一横坐标均值和第一纵坐标均值;
根据所述标准外接矩形框的各顶点坐标确定第二横坐标均值和第二纵坐标均值;
根据所述第二横坐标与第一横坐标的差值确定横向偏移量,根据所述第二纵坐标与第一纵坐标的差值确定纵向偏移量;
控制所述预测检测框模板根据所述横向偏移量和纵向偏移量分别进行移动,得到初始滑动位置。
10.根据权利要求1所述的方法,其特征在于,所述根据各所述文本标识对所述待检测图像进行文本信息提取,包括:
根据所接收的提取指令确定对应的文本标识;
根据所述文本标识从所述待检测图像中截取目标图像;
基于所述目标图像和预训练的文字识别模型确定文本信息。
11.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任一所述的一种文本信息提取方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-10中任一所述的一种文本信息提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011502975.6A CN112633118A (zh) | 2020-12-18 | 2020-12-18 | 一种文本信息提取方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011502975.6A CN112633118A (zh) | 2020-12-18 | 2020-12-18 | 一种文本信息提取方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112633118A true CN112633118A (zh) | 2021-04-09 |
Family
ID=75317497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011502975.6A Pending CN112633118A (zh) | 2020-12-18 | 2020-12-18 | 一种文本信息提取方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112633118A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313111A (zh) * | 2021-05-28 | 2021-08-27 | 北京百度网讯科技有限公司 | 文本识别方法、装置、设备和介质 |
CN115311663A (zh) * | 2022-08-09 | 2022-11-08 | 青岛海信信息科技股份有限公司 | 一种ocr识别方法和设备 |
WO2022247823A1 (zh) * | 2021-05-25 | 2022-12-01 | 阿里巴巴(中国)有限公司 | 图像检测方法、设备和存储介质 |
CN115937868A (zh) * | 2022-12-12 | 2023-04-07 | 江苏中烟工业有限责任公司 | 烟包标签信息匹配方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294178A (zh) * | 2016-08-22 | 2017-01-04 | 北京奇虎科技有限公司 | 自动化测试方法和装置 |
WO2019104879A1 (zh) * | 2017-11-30 | 2019-06-06 | 平安科技(深圳)有限公司 | 表格类图像的信息识别方法、电子装置及可读存储介质 |
CN109886997A (zh) * | 2019-01-23 | 2019-06-14 | 平安科技(深圳)有限公司 | 基于目标检测的识别框确定方法、装置及终端设备 |
CN109977935A (zh) * | 2019-02-27 | 2019-07-05 | 平安科技(深圳)有限公司 | 一种文本识别方法及装置 |
WO2019238063A1 (zh) * | 2018-06-15 | 2019-12-19 | 众安信息技术服务有限公司 | 文本检测分析方法、装置及设备 |
CN111476210A (zh) * | 2020-05-11 | 2020-07-31 | 上海西井信息科技有限公司 | 基于图像的文本识别方法、系统、设备及存储介质 |
-
2020
- 2020-12-18 CN CN202011502975.6A patent/CN112633118A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294178A (zh) * | 2016-08-22 | 2017-01-04 | 北京奇虎科技有限公司 | 自动化测试方法和装置 |
WO2019104879A1 (zh) * | 2017-11-30 | 2019-06-06 | 平安科技(深圳)有限公司 | 表格类图像的信息识别方法、电子装置及可读存储介质 |
WO2019238063A1 (zh) * | 2018-06-15 | 2019-12-19 | 众安信息技术服务有限公司 | 文本检测分析方法、装置及设备 |
CN109886997A (zh) * | 2019-01-23 | 2019-06-14 | 平安科技(深圳)有限公司 | 基于目标检测的识别框确定方法、装置及终端设备 |
CN109977935A (zh) * | 2019-02-27 | 2019-07-05 | 平安科技(深圳)有限公司 | 一种文本识别方法及装置 |
CN111476210A (zh) * | 2020-05-11 | 2020-07-31 | 上海西井信息科技有限公司 | 基于图像的文本识别方法、系统、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
ABDELAALI HASSAINE等: "Text Categorization Using Hyper Rectangular Keyword Extraction:Application to News Articles Classification", RELATIONAL AND ALGEBRAIC METHODS IN COMPUTER SCIENCE, 8 November 2015 (2015-11-08), pages 312 - 325, XP047337202, DOI: 10.1007/978-3-319-24704-5_19 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022247823A1 (zh) * | 2021-05-25 | 2022-12-01 | 阿里巴巴(中国)有限公司 | 图像检测方法、设备和存储介质 |
CN113313111A (zh) * | 2021-05-28 | 2021-08-27 | 北京百度网讯科技有限公司 | 文本识别方法、装置、设备和介质 |
CN113313111B (zh) * | 2021-05-28 | 2024-02-13 | 北京百度网讯科技有限公司 | 文本识别方法、装置、设备和介质 |
CN115311663A (zh) * | 2022-08-09 | 2022-11-08 | 青岛海信信息科技股份有限公司 | 一种ocr识别方法和设备 |
CN115937868A (zh) * | 2022-12-12 | 2023-04-07 | 江苏中烟工业有限责任公司 | 烟包标签信息匹配方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112633118A (zh) | 一种文本信息提取方法、设备及存储介质 | |
CN109947967B (zh) | 图像识别方法、装置、存储介质和计算机设备 | |
CN103824053B (zh) | 一种人脸图像的性别标注方法及人脸性别检测方法 | |
JP2020527260A (ja) | テキスト検出分析方法、装置及びデバイス | |
CN111428723B (zh) | 字符识别方法及装置、电子设备、存储介质 | |
CN110569830A (zh) | 多语言文本识别方法、装置、计算机设备及存储介质 | |
CN109934847B (zh) | 弱纹理三维物体姿态估计的方法和装置 | |
EP3754608A1 (en) | Target tracking method, computer device, and storage medium | |
CN110781877B (zh) | 一种图像识别方法、设备及存储介质 | |
CN112818949A (zh) | 一种产证文字的识别方法及系统 | |
EP2816504A1 (en) | Character-extraction method and character-recognition device and program using said method | |
JP2009217832A (ja) | ビデオ画像の道路標識自動認識方法及び道路標識自動認識装置並びに道路標識自動認識のプログラムを記憶した記憶媒体 | |
CN111414907A (zh) | 数据集标注方法、数据集标注装置和计算机可读存储介质 | |
CN114386504A (zh) | 一种工程图纸文字识别方法 | |
US10984277B2 (en) | Image analysis apparatus, image analysis method, and non-transitory computer readable medium | |
CN116363319B (zh) | 一种建筑物屋顶的建模方法、建模装置、设备及介质 | |
CN116030472A (zh) | 文字坐标确定方法及装置 | |
US10140509B2 (en) | Information processing for detection and distance calculation of a specific object in captured images | |
CN113392820B (zh) | 动态手势识别方法、装置、电子设备及可读存储介质 | |
CN114445716A (zh) | 关键点检测方法、装置、计算机设备、介质及程序产品 | |
CN114399729A (zh) | 监控对象移动识别方法、系统、终端及存储介质 | |
CN112766272A (zh) | 目标检测方法、装置和电子系统 | |
JP2021026723A (ja) | 画像処理装置、画像処理方法およびプログラム | |
CN111103987B (zh) | 公式录入方法及计算机存储介质 | |
CN115631493B (zh) | 文本区确定方法、系统及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |