CN109766885A - 一种文字检测方法、装置、电子设备及存储介质 - Google Patents

一种文字检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN109766885A
CN109766885A CN201811647657.1A CN201811647657A CN109766885A CN 109766885 A CN109766885 A CN 109766885A CN 201811647657 A CN201811647657 A CN 201811647657A CN 109766885 A CN109766885 A CN 109766885A
Authority
CN
China
Prior art keywords
text
region
target area
detected
void area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811647657.1A
Other languages
English (en)
Other versions
CN109766885B (zh
Inventor
谢锋明
万昭祎
姚聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Megvii Technology Co Ltd
Original Assignee
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Megvii Technology Co Ltd filed Critical Beijing Megvii Technology Co Ltd
Priority to CN201811647657.1A priority Critical patent/CN109766885B/zh
Publication of CN109766885A publication Critical patent/CN109766885A/zh
Application granted granted Critical
Publication of CN109766885B publication Critical patent/CN109766885B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供了一种文字检测方法、装置、电子设备及存储介质,该方法包括:获取待检测图像;将所述待检测图像输入检测模型进行识别,得到所述待检测图像中的目标区域和所述目标区域中的空隙区域,所述空隙区域包括空格或符号;根据所述目标区域和所述空隙区域,确定包含待识别文字的词级别区域;对所述词级别区域进行文字识别,得到对应的文字识别结果。本发明由于检测目标区域时同时考虑了目标区域内待识别文字间的空隙区域,从而识别文字时可以去除空隙区域,对连续的文字进行识别,从而可以提高文字识别的准确率。

Description

一种文字检测方法、装置、电子设备及存储介质
技术领域
本发明涉及图像识别技术领域,特别是涉及一种文字检测方法、装置、电子设备及存储介质。
背景技术
在共享出行、金融、财务、保险和电商等行业的业务中,经常涉及到银行卡(包括借记卡、信用卡等)、身份证、驾驶证或行驶证等卡片或证件信息,而其中的文字是关键信息,需要对文字进行识别以获取重要信息。
现有技术中,在对卡片或证件中的文字进行识别时,往往框选整个段落进行整体识别,在文字间包含字符时,容易产生错误的识别结果。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种文字检测方法、装置、电子设备及存储介质。
依据本发明实施例的第一方面,提供了一种文字检测方法,包括:
获取待检测图像;
将所述待检测图像输入检测模型进行识别,得到所述待检测图像中的目标区域和所述目标区域中的空隙区域,所述空隙区域包括空格或符号;
根据所述目标区域和所述空隙区域,确定包含待识别文字的词级别区域;
对所述词级别区域进行文字识别,得到对应的文字识别结果。
可选的,将所述待检测图像输入所述检测模型进行识别,得到所述待检测图像中的目标区域和对应的空隙区域,包括:
将所述待检测图像输入所述检测模型进行识别,得到所述待检测图像中的目标区域和所述目标区域的热力图,所述热力图包括空隙区域的位置和对应的空隙类型,所述空隙类型包括空格或符号类型;
对所述词级别区域进行文字识别,得到对应的文字识别结果,包括:
对所述词级别区域进行文字识别,并结合所述空隙区域的位置和对应的空隙类型,得到对应的文字识别结果。
可选的,所述根据所述目标区域和所述空隙区域,确定包含待识别文字的词级别区域,包括:
确定所述目标区域和所述空隙区域的交叉区域;
将所述交叉区域从所述目标区域内去除,得到所述词级别区域。
可选的,在获取待检测图像及对应的检测模型之前,还包括:
获取已标注目标区域和空隙区域的样本训练集;
针对所述样本训练集,利用卷积神经网络进行训练,得到所述检测模型。
可选的,对所述词级别区域进行文字识别,得到对应的文字识别结果,包括:
根据所述词级别区域,确定所述待识别文字的最小外接矩形;
根据所述最小外接矩形,确定所述待识别文字的文本区域;
对所述文本区域进行文字识别,得到对应的文字识别结果。
依据本发明实施例的第二方面,提供了一种文字检测装置,包括:
获取模块,用于获取待检测图像;
检测模块,用于将所述待检测图像输入检测模型进行识别,得到所述待检测图像中的目标区域和所述目标区域中的空隙区域,所述空隙区域包括空格或符号;
确定模块,用于根据所述目标区域和所述空隙区域,确定包含待识别文字的词级别区域;
识别模块,用于对所述词级别区域进行文字识别,得到对应的文字识别结果。
可选的,所述检测模块具体用于:
将所述待检测图像输入所述检测模型进行识别,得到所述待检测图像中的目标区域和所述目标区域的热力图,所述热力图包括空隙区域的位置和对应的空隙类型,所述空隙类型包括空格或符号类型;
所述识别模块具体用于:
对所述词级别区域进行文字识别,并结合所述空隙区域的位置和对应的空隙类型,得到对应的文字识别结果。
可选的,所述确定模块包括:
交叉区域确定单元,用于确定所述目标区域和所述空隙区域的交叉区域;
词区域确定单元,用于将所述交叉区域从所述目标区域内去除,得到所述词级别区域。
可选的,还包括:
样本获取模块,用于获取已标注目标区域和空隙区域的样本训练集;
检测模型生成模块,用于针对所述样本训练集,利用卷积神经网络进行训练,得到所述检测模型。
可选的,所述识别模块包括:
最小外接矩形确定单元,用于根据所述词级别区域,确定所述待识别文字的最小外接矩形;
文本区域确定单元,用于根据所述最小外接矩形,确定所述待识别文字的文本区域;
识别单元,用于对所述文本区域进行文字识别,得到对应的文字识别结果。
依据本发明实施例的第三方面,提供了一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面中所述的文字检测方法。
依据本发明实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的文字检测方法。
本发明实施例提供的文字检测方法、装置、电子设备及存储介质,通过获取待检测图像,将待检测图像输入检测模型进行识别,得到待检测图像中的目标区域和目标区域中的空隙区域,根据目标区域和空隙区域确定包含待识别文字的词级别区域,对词级别区域进行文字识别,得到对应的文字识别结果,由于检测目标区域时同时考虑了目标区域内待识别文字间的空隙区域,而且空隙区域包括空格或符号,即也可以将符号识别为词级别的文字之间的空隙,从而识别文字时可以去除空隙区域,对连续的文字进行识别,从而可以提高文字识别的准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
图1是本发明实施例提供的一种文字检测方法的步骤流程图;
图2是本发明实施例中的银行卡的目标区域的示意图;
图3是本发明实施例中的银行卡的卡号中的空隙区域的示意图;
图4是本发明实施例中的银行卡中目标区域与空隙区域的交叉区域的示意图;
图5是本发明实施例中的银行卡中词级别区域的示意图;
图6是本发明实施例提供的一种文字检测方法的步骤流程图;
图7是本发明实施例提供的一种文字检测方法的步骤流程图;
图8是本发明实施例提供的一种文字检测装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1是本发明实施例提供的一种文字检测方法的步骤流程图,该方法可以应用于证件识别(如身份证识别)设备或卡片识别(如银行卡识别)设备等电子设备中,以对待检测图像的文字进行检测识别,如图1所示,该方法可以包括:
步骤101,获取待检测图像。
其中,待检测图像可以是银行卡(包括借记卡和信用卡等)、身份证、驾驶证或行驶证等的图像,还可以是文档的图像。其中,身份证、驾驶证或行驶证中的文字所使用的语言不限,可以是汉语、英语或其他语言。
可选的,在获取待检测图像之后,还包括:
获取待检测图像对应的图像类型;
根据所述图像类型,获取所述图像类型对应的检测模型。
其中,检测模型可以是基于卷积神经网络的模型,检测模型的输出包括包含文字的目标区域和文字间的空隙区域。检测模型可以是与图像类型对应的,如银行卡对应一种检测模型,身份证对应一种检测模型等。通过不同的图像类型使用不同的检测模型进行检测,以进一步提高文字检测识别的准确性。
电子设备可以直接采集待检测图像,或者是用户指定待检测图像的存储位置,电子设备根据该存储位置获取到待检测图像。图像类型可以由用户指定。在获取到待检测图像和待检测图像对应的图像类型后,根据图像类型获取对应的检测模型,便于后续通过对应的检测模型对待检测图像进行检测识别。通过与图像类型对应的检测模型来对该图像类型的待检测图像进行检测识别,可以提高检测识别的准确率。
步骤102,将所述待检测图像输入检测模型进行识别,得到所述待检测图像中的目标区域和所述目标区域中的空隙区域,所述空隙区域包括空格或符号。
其中,所述符号可以是文本符号,如逗号、句号或问号等标点符号,文本符号可以包括中文符号或英文符号。所述空格例如可以是银行卡的卡号中的空格或者是英文单词之间的空格。目标区域包括待识别文字和待识别文字间的空隙区域,如可以是银行卡的卡号区域,还可以是身份证的身份证号区域或姓名区域。待识别文字所使用的语言不限,可以是汉语、英语或其他语言。空隙区域是目标区域内的待识别文字之间的空隙所在区域。待识别文字间的空隙包括空格或符号。
将待检测图像输入检测模型,通过检测模型检测待检测图像中的待识别文字所在位置,并同时检测待识别文字之间的空隙所在位置,从而得到待检测图像中的目标区域和目标区域中的空隙区域,从而也可以将符号识别为词级别的文字之间的空隙区域。
步骤103,根据所述目标区域和所述空隙区域,确定包含待识别文字的词级别区域。
其中,词级别区域包含连续的待识别文字,该连续的待识别文字可以称为词,即一个词级别区域包含一个词,不包括词与词之间的空格或符号。
空隙区域为目标区域内待识别文字之间的区域,空隙区域将目标区域分为多个词级别区域,从而根据目标区域和空隙区域,可以得到多个词级别区域。
可选的,所述根据所述目标区域和所述空隙区域,确定词级别区域,包括:
确定所述目标区域和所述空隙区域的交叉区域;
将所述交叉区域从所述目标区域内去除,得到所述词级别区域。
根据目标区域的位置和空隙区域的位置,可以确定目标区域和空隙区域的交叉区域,将交叉区域从目标区域内去除,得到待识别文字的词级别区域。其中,词级别区域为连续的文字所在区域,不包括空格或符号。这样定位得到的词级别区域不包括词级别之间的空隙,定位较为准确,可以提高文字的识别准确率。
例如,图2是本发明实施例中的银行卡的目标区域的示意图,图3是本发明实施例中的银行卡的卡号中的空隙区域的示意图,如图2和图3所示,目标区域1为银行卡中的卡号所在区域,空隙区域2为银行卡的卡号中的空格或符号所在区域,如图4所示,根据目标区域1和空隙区域2可以得到两者的交叉区域3,如图5所示,将交叉区域3从目标区域内去除,得到词级别区域4,即银行卡号中连续的数字所在区域,词级别区域4中只包括连续的数字,没有空格或符号。
步骤104,对所述词级别区域进行文字识别,得到对应的文字识别结果。
在定位到待识别文字所在的词级别区域后,可以通过模板匹配法或几何特征抽取法对词级别区域内的文字进行识别,得到对应的文字识别结果。其中,模板匹配法是将输入的文字与给定的各类别标准文字(即模板)进行相关匹配,计算输入文字与各模板之间的相似性程度,取相似度最大的类别作为识别结果。几何特征抽取法是抽取文字的一些几何特征,如文字的端点、分叉点、凹凸部分以及水平、垂直和倾斜等各方向的线段或闭合环路等,根据这些特征的位置和相互关系进行逻辑组合判断,获得识别结果。
对于包含特定文字的卡片或证件来说,可以通过模板匹配法快速识别其中的文字,例如,对于银行卡的卡号识别,一般是识别其中的数字,这时可以通过预先设置的数字的模板进行模板匹配,从而快速识别出其中的卡号。对于图像中的待识别文字不是特定的文字而且种类特别多的时候,可以通过几何特征抽取法来识别图像中的文字。
可选的,对所述词级别区域进行文字识别,得到对应的文字识别结果,包括:
根据所述词级别区域,确定所述待识别文字的最小外接矩形;
根据所述最小外接矩形,确定所述待识别文字的文本区域;
对所述文本区域进行文字识别,得到对应的文字识别结果。
其中,最小外接矩形(Minimum Bounding Rectangle,MBR),也称为最小边界矩形,最小包含矩形,或最小外包矩形。最小外接矩形是指以二维坐标表示的若干二维形状(例如点、直线、多边形)的最大范围,即以给定的二维形状各顶点中的最大横坐标、最小横坐标、最大纵坐标、最小纵坐标定下边界的矩形。
通过找轮廓的方法确定词级别区域内待识别文字的轮廓边界,基于所述轮廓边界,通过找最小外接矩形的方法确定完整包含轮廓边界的最小外接矩形,确定最小外接矩形包围的区域为待识别文字的文本区域,从而对每个文本区域进行文字识别,得到每个文本区域对应的文字识别结果,按照文本区域的顺序组合各个文本区域的文字识别结果,得到目标区域内的文字识别结果。通过找到最小外接矩形确定待识别文字的文本区域,确定的文本区域包括的待识别文字外的空白区域较小,从而在识别时干扰较小,可以进一步提高文字识别的准确率。
本实施例提供的文字检测方法,通过获取待检测图像,将待检测图像输入检测模型进行识别,得到待检测图像中的目标区域和目标区域中的空隙区域,根据目标区域和空隙区域确定包含待识别文字的词级别区域,对词级别区域进行文字识别,得到对应的文字识别结果,由于检测目标区域时同时考虑了目标区域内待识别文字间的空隙区域,而且空隙区域包括空格或符号,即也可以将符号识别为词级别的文字之间的空隙,从而识别文字时可以去除空隙区域,对连续的文字进行识别,从而可以提高文字识别的准确率。
图6是本发明实施例提供的一种文字检测方法的步骤流程图,本实施例在上述实施例的基础上,还可以识别空隙区域内的空隙类型,如图6所示,该方法可以包括:
步骤601,获取待检测图像。
本步骤的具体内容与上述实施例中的步骤101的具体内容相同,这里不再赘述。
步骤602,将所述待检测图像输入检测模型进行识别,得到所述待检测图像中的目标区域和所述目标区域的热力图,所述热力图包括空隙区域的位置和对应的空隙类型,所述空隙类型包括空格或符号类型。
其中,符号类型如可以是逗号、句号或问号等,热力图的尺寸大小是预先设定的,例如可以是待检测图像尺寸大小的四分之一,热力图可以包括多个通道,如包括文字通道、空格通道和具体的符号类型的通道,在得到的热力图中的同一个区域每个通道对应输出一个概率值,概率值在0-1之间,将最大概率值对应的通道所表示的类型作为该区域的类型,即可以识别该区域是文字、空格或具体的符号类型。通过热力图可以得到待识别文字所在的区域和对应的空隙区域,而且通过概率值可以得到空隙区域对应的空隙类型,即可以得到空隙区域是空格还是具体的文本符号。
空隙区域的位置为在热力图中的位置,根据热力图的尺寸大小与待检测图像尺寸大小的关系,可以将空隙区域在热力图中的位置换算为空隙区域在待检测图像中的位置。
步骤603,根据所述目标区域和所述空隙区域,确定包含待识别文字的词级别区域。
本步骤的具体内容与上述实施例中的步骤103的具体内容相同,这里不再赘述。
步骤604,对所述词级别区域进行文字识别,并结合所述空隙区域的位置和所述空隙区域对应的空隙类型,得到对应的文字识别结果。
对词级别区域进行文字识别,得到每个词级别区域的文字识别结果,再通过词级别区域在待检测图像中的位置和对应的空隙区域在待检测图像中的位置,将空隙区域中的具体的空隙类型结合到各个词级别区域的文字识别结果中,得到目标区域的文字识别结果。
例如,对于目标区域内包含“New York,Ny 10007”时,可以得到4个词级别区域和3个空隙区域,第一个词级别区域包括文字“New”,第二个词级别区域包括文字“York”,第三个词级别区域包括文字“Ny”,第四个词级别区域包括文字“10007”,识别到空隙区域的空隙类型为:在第一个词级别区域和第二个词级别区域之间为空格,第二个词级别区域和第三个词级别区域之间为逗号,第三个词级别区域和第四个词级别区域之间为空格,从而在识别到各个词级别区域内的文字时,与空隙区域的识别结果进行组合,得到目标区域内的文字识别结果“New York,Ny 10007”。
本实施例提供的文字检测方法,在上述实施例的基础上,还可以识别空隙区域内的空隙类型,从而得到空格或者具体的文本符号,在对词级别区域进行文字识别后结合空隙区域的位置和对应的空隙类型,得到对应的文字识别结果,从而进一步提高文字识别的准确率。
图7是本发明实施例提供的一种文字检测方法的步骤流程图,本实施例在上述实施例的基础上,还可选包括:获取已标注目标区域和空隙区域的样本训练集;根据所述样本训练集,利用卷积神经网络进行训练,得到所述检测模型。如图7所示,该方法可以包括:
步骤701,获取已标注目标区域和空隙区域的样本训练集。
为了进一步提高文字的检测识别的准确率,可以针对不同的图像类型,获取与图像类型对应的已标注目标区域和空隙区域的样本训练集。其中,图像类型可以包括银行卡(包括借记卡和信用卡等)、身份证、驾驶证、行驶证或文档等。
针对一个设定图像类型,需要预先收集大量的样本图像和对应的已标注目标区域和空隙区域的样本图像,作为样本训练集。以银行卡为例,需要收集一大批现实场景中出现的银行卡图片,假设待识别文字是银行卡号,可以通过人工标注的方式,指明银行卡号所在的位置(如图2所示),即目标区域,词与词之间的空隙(包括空格或符号)所在的位置(如图3所示),即空隙区域。可以将收集到的针对设定图像类型的样本训练集预先保存在设定位置,在需要设定图像类型的训练数据时,从设定位置获取与设定图像类型对应的样本训练集。
步骤702,针对所述样本训练集,利用卷积神经网络进行训练,得到所述检测模型。
其中,检测模型可以是通用的,也可以是与设定图像类型对应的,如银行卡对应一种检测模型,身份证对应另一种检测模型,这样可以提高检测的准确率。
将获取到的样本训练集中的样本图像作为卷积神经网络的输入,标注目标区域和空隙区域的样本图像作为输出,对卷积神经网络进行训练,生成检测模型。
步骤703,获取待检测图像。
本步骤的具体内容与上述实施例中的步骤101的具体内容相同,这里不再赘述。
步骤704,将所述待检测图像输入检测模型进行识别,得到所述待检测图像中的目标区域和所述目标区域中的空隙区域,所述空隙类型包括空格或符号类型。
本步骤的具体内容与上述实施例中的步骤102的具体内容相同,这里不再赘述。
步骤705,根据所述目标区域和所述空隙区域,确定包含待识别文字的词级别区域。
本步骤的具体内容与上述实施例中的步骤103的具体内容相同,这里不再赘述。
步骤706,对所述词级别区域进行文字识别,得到对应的文字识别结果。
本步骤的具体内容与上述实施例中的步骤104的具体内容相同,这里不再赘述。
本实施例提供的文字检测方法,通过取已标注目标区域和空隙区域的样本训练集,针对样本训练集利用卷积神经网络进行训练,得到检测模型,从而可以得到文字的检测模型,在进行文字检测识别时可以利用检测模型进行定位,可以进一步提高文字识别的准确率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
图8是本发明实施例提供的一种文字检测装置的结构框图,该文字检测装置可以应用于证件识别(如身份证识别)设备或卡片识别(如银行卡识别)设备等电子设备中,以对待检测图像的文字进行检测识别,如图8所示,该文字检测装置可以包括:
获取模块801,用于获取待检测图像;
检测模块802,用于将所述待检测图像输入所述检测模型进行识别,得到所述待检测图像中的目标区域和所述目标区域中的空隙区域,所述空隙区域包括空格或符号;
确定模块803,用于根据所述目标区域和所述空隙区域,确定包含待识别文字的词级别区域;
识别模块804,用于对所述词级别区域进行文字识别,得到对应的文字识别结果。
可选的,所述检测模块具体用于:
将所述待检测图像输入所述检测模型进行识别,得到所述待检测图像中的目标区域和所述目标区域的热力图,所述热力图包括空隙区域的位置和对应的空隙类型,所述空隙类型包括空格或符号类型;
所述识别模块具体用于:
对所述词级别区域进行文字识别,并结合所述空隙区域的位置和对应的空隙类型,得到对应的文字识别结果。
可选的,所述确定模块包括:
交叉区域确定单元,用于确定所述目标区域和所述空隙区域的交叉区域;
词区域确定单元,用于将所述交叉区域从所述目标区域内去除,得到所述词级别区域。
可选的,还包括:
样本获取模块,用于获取已标注目标区域和空隙区域的样本训练集;
检测模型生成模块,用于针对所述样本训练集,利用卷积神经网络进行训练,得到所述检测模型。
可选的,所述识别模块包括:
最小外接矩形确定单元,用于根据所述词级别区域,确定所述待识别文字的最小外接矩形;
文本区域确定单元,用于根据所述最小外接矩形,确定所述待识别文字的文本区域;
识别单元,用于对所述文本区域进行文字识别,得到对应的文字识别结果。
本实施例提供的文字检测装置,通过获取模块获取待检测图像,检测模块将待检测图像输入检测模型进行识别,得到待检测图像中的目标区域和目标区域中的空隙区域,确定模块根据目标区域和空隙区域确定包含待识别文字的词级别区域,识别模块对词级别区域进行文字识别,得到对应的文字识别结果,由于检测目标区域时同时考虑了目标区域内待识别文字间的空隙区域,而且空隙区域包括空格或符号,即也可以将符号识别为词级别的文字之间的空隙,从而识别文字时可以去除空隙区域,对连续的文字进行识别,从而可以提高文字识别的准确率。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
进一步地,根据本发明的一个实施例,提供了一种电子设备,所述电子设备可以为计算机、移动终端、其他卡片识别设备或证件识别设备,所述电子设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现前述实施例的文字检测方法。
根据本发明的一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括但不限于磁盘存储器、CD-ROM、光学存储器等,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现前述实施例的文字检测方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种文字检测方法、装置、电子设备及存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种文字检测方法,其特征在于,包括:
获取待检测图像;
将所述待检测图像输入检测模型进行识别,得到所述待检测图像中的目标区域和所述目标区域中的空隙区域,所述空隙区域包括空格或符号;
根据所述目标区域和所述空隙区域,确定包含待识别文字的词级别区域;
对所述词级别区域进行文字识别,得到对应的文字识别结果。
2.根据权利要求1所述的方法,其特征在于,将所述待检测图像输入所述检测模型进行识别,得到所述待检测图像中的目标区域和对应的空隙区域,包括:
将所述待检测图像输入所述检测模型进行识别,得到所述待检测图像中的目标区域和所述目标区域的热力图,
所述热力图包括空隙区域的位置和对应的空隙类型,所述空隙类型包括空格或符号类型;
对所述词级别区域进行文字识别,得到对应的文字识别结果,包括:
对所述词级别区域进行文字识别,并结合所述空隙区域的位置和对应的空隙类型,得到对应的文字识别结果。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标区域和所述空隙区域,确定包含待识别文字的词级别区域,包括:
确定所述目标区域和所述空隙区域的交叉区域;
将所述交叉区域从所述目标区域内去除,得到所述词级别区域。
4.根据权利要求1所述的方法,其特征在于,在获取待检测图像之前,还包括:
获取已标注目标区域和空隙区域的样本训练集;
针对所述样本训练集,利用卷积神经网络进行训练,得到所述检测模型。
5.根据权利要求1所述的方法,其特征在于,对所述词级别区域进行文字识别,得到对应的文字识别结果,包括:
根据所述词级别区域,确定所述待识别文字的最小外接矩形;
根据所述最小外接矩形,确定所述待识别文字的文本区域;
对所述文本区域进行文字识别,得到对应的文字识别结果。
6.一种文字检测装置,其特征在于,包括:
获取模块,用于获取待检测图像;
检测模块,用于将所述待检测图像输入检测模型进行识别,得到所述待检测图像中的目标区域和所述目标区域中的空隙区域,所述空隙区域包括空格或符号;
确定模块,用于根据所述目标区域和所述空隙区域,确定包含待识别文字的词级别区域;
识别模块,用于对所述词级别区域进行文字识别,得到对应的文字识别结果。
7.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-5任一项所述的文字检测方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的文字检测方法。
CN201811647657.1A 2018-12-29 2018-12-29 一种文字检测方法、装置、电子设备及存储介质 Active CN109766885B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811647657.1A CN109766885B (zh) 2018-12-29 2018-12-29 一种文字检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811647657.1A CN109766885B (zh) 2018-12-29 2018-12-29 一种文字检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN109766885A true CN109766885A (zh) 2019-05-17
CN109766885B CN109766885B (zh) 2022-01-18

Family

ID=66453314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811647657.1A Active CN109766885B (zh) 2018-12-29 2018-12-29 一种文字检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN109766885B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427909A (zh) * 2019-08-09 2019-11-08 杭州有盾网络科技有限公司 一种移动端驾驶证检测方法、系统及电子设备和存储介质
CN110766008A (zh) * 2019-10-29 2020-02-07 北京华宇信息技术有限公司 一种面向任意方向和形状的文本检测方法
CN110929727A (zh) * 2020-02-12 2020-03-27 成都数联铭品科技有限公司 图像标注方法及装置、文字检测方法及系统、电子设备
CN111079489A (zh) * 2019-05-28 2020-04-28 广东小天才科技有限公司 一种内容识别方法及电子设备
CN111274369A (zh) * 2020-01-09 2020-06-12 广东小天才科技有限公司 一种英文单词的识别方法及装置
CN111626244A (zh) * 2020-05-29 2020-09-04 中国工商银行股份有限公司 图像识别方法、装置、电子设备和介质
CN112666182A (zh) * 2020-12-29 2021-04-16 苏州天准科技股份有限公司 柔性电路板用自动视觉检测方法及装置
CN112926568A (zh) * 2021-03-05 2021-06-08 北京全路通信信号研究设计院集团有限公司 联锁表蓝图识别方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077593A (zh) * 2013-03-27 2014-10-01 富士通株式会社 图像处理方法和装置
US8861862B2 (en) * 2011-08-03 2014-10-14 Sharp Kabushiki Kaisha Character recognition apparatus, character recognition method and program
CN108198191A (zh) * 2018-01-02 2018-06-22 武汉斗鱼网络科技有限公司 图像处理方法及装置
CN108717542A (zh) * 2018-04-23 2018-10-30 北京小米移动软件有限公司 识别文字区域的方法、装置及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8861862B2 (en) * 2011-08-03 2014-10-14 Sharp Kabushiki Kaisha Character recognition apparatus, character recognition method and program
CN104077593A (zh) * 2013-03-27 2014-10-01 富士通株式会社 图像处理方法和装置
CN108198191A (zh) * 2018-01-02 2018-06-22 武汉斗鱼网络科技有限公司 图像处理方法及装置
CN108717542A (zh) * 2018-04-23 2018-10-30 北京小米移动软件有限公司 识别文字区域的方法、装置及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BOLEI ZHOU等: "Learning Deep Features for Discriminative Localization", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079489A (zh) * 2019-05-28 2020-04-28 广东小天才科技有限公司 一种内容识别方法及电子设备
CN111079489B (zh) * 2019-05-28 2023-04-28 广东小天才科技有限公司 一种内容识别方法及电子设备
CN110427909A (zh) * 2019-08-09 2019-11-08 杭州有盾网络科技有限公司 一种移动端驾驶证检测方法、系统及电子设备和存储介质
CN110766008A (zh) * 2019-10-29 2020-02-07 北京华宇信息技术有限公司 一种面向任意方向和形状的文本检测方法
CN111274369A (zh) * 2020-01-09 2020-06-12 广东小天才科技有限公司 一种英文单词的识别方法及装置
CN110929727A (zh) * 2020-02-12 2020-03-27 成都数联铭品科技有限公司 图像标注方法及装置、文字检测方法及系统、电子设备
CN111626244A (zh) * 2020-05-29 2020-09-04 中国工商银行股份有限公司 图像识别方法、装置、电子设备和介质
CN111626244B (zh) * 2020-05-29 2023-09-12 中国工商银行股份有限公司 图像识别方法、装置、电子设备和介质
CN112666182A (zh) * 2020-12-29 2021-04-16 苏州天准科技股份有限公司 柔性电路板用自动视觉检测方法及装置
CN112926568A (zh) * 2021-03-05 2021-06-08 北京全路通信信号研究设计院集团有限公司 联锁表蓝图识别方法、装置、电子设备及存储介质
CN112926568B (zh) * 2021-03-05 2024-02-13 北京全路通信信号研究设计院集团有限公司 联锁表蓝图识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN109766885B (zh) 2022-01-18

Similar Documents

Publication Publication Date Title
CN109766885A (zh) 一种文字检测方法、装置、电子设备及存储介质
CN106874909B (zh) 一种图像字符的识别方法及其装置
US11003941B2 (en) Character identification method and device
CN104217203B (zh) 复杂背景卡面信息识别方法及系统
Yi et al. Scene text recognition in mobile applications by character descriptor and structure configuration
Rong et al. Recognizing text-based traffic guide panels with cascaded localization network
CN108073910B (zh) 用于生成人脸特征的方法和装置
CN109034069B (zh) 用于生成信息的方法和装置
US20120134576A1 (en) Automatic recognition of images
CN111476227A (zh) 基于ocr的目标字段识别方法、装置及存储介质
CN111242124B (zh) 一种证件分类方法、装置及设备
CN105512657B (zh) 字符识别方法和设备
CN110555433A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
US20180089525A1 (en) Method for line and word segmentation for handwritten text images
CN111291797A (zh) 一种防伪识别方法、装置及电子设备
CN111640193A (zh) 文字处理方法、装置、计算机设备及存储介质
CN108932533A (zh) 识别模型构建方法及装置、字符识别方法及装置
CN110363190A (zh) 一种文字识别方法、装置及设备
CN112036304A (zh) 医疗票据版面识别的方法、装置及计算机设备
Chen et al. Salient object detection: integrate salient features in the deep learning framework
US20230084845A1 (en) Entry detection and recognition for custom forms
CN110796130A (zh) 用于文字识别的方法、装置及计算机存储介质
KR20200106110A (ko) 글자 인식 장치 및 이에 의한 글자 인식 방법
CN117593420A (zh) 基于图像处理的平面图纸标注方法、装置、介质及设备
KR20210010602A (ko) 글자 인식 장치 및 이에 의한 글자 인식 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant