CN112749690A - 一种文本检测方法、装置、电子设备和存储介质 - Google Patents

一种文本检测方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112749690A
CN112749690A CN202010227310.2A CN202010227310A CN112749690A CN 112749690 A CN112749690 A CN 112749690A CN 202010227310 A CN202010227310 A CN 202010227310A CN 112749690 A CN112749690 A CN 112749690A
Authority
CN
China
Prior art keywords
image
target
character
detected
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010227310.2A
Other languages
English (en)
Other versions
CN112749690B (zh
Inventor
徐孩
陈琳
车翔
管琰平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010227310.2A priority Critical patent/CN112749690B/zh
Publication of CN112749690A publication Critical patent/CN112749690A/zh
Application granted granted Critical
Publication of CN112749690B publication Critical patent/CN112749690B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)

Abstract

本申请涉及计算机视觉技术领域,尤其涉及机器学习技术领域,提供一种文本检测方法、装置、电子设备和存储介质,用以检测图像中的被裁剪字符,其中,方法包括:将待检测图像沿至少一个目标方向翻转获得的镜像图像与待检测图像拼接,获得目标图像;对目标图像进行文本检测,生成至少一个标识目标图像中的字符所在区域的文本框;从各个文本框中确定目标文本框,目标文本框跨越待检测图像和镜像图像之间的拼接轴线;根据目标文本框中各个字符与拼接轴线之间的位置关系,识别待检测图像包含的各个字符中的被裁剪字符。由于本申请对原图像进行了翻转和拼接,使得原图像中被裁剪字符在拼接后的轮廓扩大,因此拼接得到的字符更容易被检测出。

Description

一种文本检测方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机领域,尤其涉及一种计算机视觉技术,提供一种文本检测方法、装置、电子设备和存储介质。
背景技术
字符裁剪检测是要判断图像中是否有被裁剪的字符,在一些内容发文平台标准化流程的视频质量检测中是一个关键的任务,一般都是直接通过文本检测方法对图像中的字符进行检测。
然而,在计算机视觉领域中,文本检测方法只能检测出图像中的正常文本及其位置。例如利用EAST(Efficientand Accurate Scene Text,高效准确的场景文本)模型进行文本检测时,由于该类模型在进行训练时使用的都是正常文本,因此只可以检测出图像中包含的完整字符,而无法检测出图像中的被裁剪字符这种非正常文本。
发明内容
本申请实施例提供一种文本裁剪检测方法、装置、电子设备和存储介质,用以检测图像中的被裁剪字符。
本申请实施例提供的一种文本检测方法,包括:
将待检测图像沿至少一个目标方向翻转获得的镜像图像与所述待检测图像拼接,获得目标图像;
对所述目标图像进行文本检测,生成至少一个标识所述目标图像中的字符所在区域的文本框;
从各个文本框中确定目标文本框,所述目标文本框跨越所述待检测图像和所述镜像图像之间的拼接轴线;
根据目标文本框中各个字符与所述拼接轴线之间的位置关系,识别所述待检测图像包含的各个字符中的被裁剪字符。
本申请实施例提供的一种文本检测装置,包括:
图像处理单元,用于将待检测图像沿至少一个目标方向翻转获得的镜像图像与所述待检测图像拼接,获得目标图像;
文本检测单元,用于对所述目标图像进行文本检测,生成至少一个标识所述目标图像中的字符所在区域的文本框;
目标确定单元,用于从各个文本框中确定目标文本框,所述目标文本框跨越所述待检测图像和所述镜像图像之间的拼接轴线;
字符识别单元,用于根据目标文本框中各个字符与所述拼接轴线之间的位置关系,识别所述待检测图像包含的各个字符中的被裁剪字符。
可选的,所述字符识别单元具体用于:
将所述目标文本框中,与拼接轴线相交的字符确定为目标字符;
从所述目标字符中确定出拼接字符,所述拼接字符由所述被裁剪字符和镜像图像中的镜像字符拼接而成;
根据确定出的拼接字符,确定所述待检测图像中的被裁剪字符。
可选的,当所述目标文本框中的字符的排列方向与所述目标方向垂直时,所述字符识别单元具体用于:
针对任意一个目标字符,若所述目标字符的中心偏离所述待检测图像的中心不超过预设比例阈值,则确定所述目标字符为拼接字符。
可选的,当所述目标文本框中的字符的排列方向与所述目标方向平行时,所述字符识别单元具体用于:
针对任意一个目标字符,确定所述目标字符与所述拼接轴线的相交位置对应的目标区域;
若所述目标区域对应的字符得分高于所述目标区域对应的字间得分,则确定所述目标字符为拼接字符;
其中,所述目标区域对应的字符得分以及字间得分是根据所述目标图像对应的高斯热图确定的。
可选的,所述高斯热图包括字符高斯热图以及字间高斯热图;所述文本检测单元还用于通过下列方式确定所述目标图像对应的高斯热图:
通过字符级文本检测模型对所述目标图像中的字符进行检测,得到所述目标图像对应的字符高斯热图;以及
对所述目标图像中字符与字符之间的间隔进行检测,得到所述目标图像对应的字间高斯热图。
可选的,所述字符识别单元还用于通过下列方式确定所述目标区域对应的字符得分:
获取所述目标区域在所述字符高斯热图上对应的字符高斯热图块,并将所述字符高斯热图块中所有像素对应的激活值的均值作为所述目标区域对应的字符得分;以及
通过下列方式确定所述目标区域对应的字间得分:
获取所述目标区域在所述字间高斯热图上对应的字间高斯热图块,并将所述字间高斯热图块中所有像素对应的激活值的均值作为所述目标区域对应的字间得分。
可选的,所述图像处理单元还用于在所述将待检测图像沿至少一个目标方向翻转获得的镜像图像与所述待检测图像拼接之前:
识别到所述待检测图像中存在预设效果的边界区域时,对所述待检测图像中的边界区域进行去除处理。
可选的,所述图像处理单元具体用于:
对所述待检测图像进行边缘检测,得到所述待检测图像对应的边缘图像;
通过霍夫变换检测所述边缘图像中的直线,并基于检测到的直线去除所述待检测图像中的边界区域。
可选的,所述图像处理单元具体用于:
将所述待检测图像沿所述目标方向进行翻转得到镜像图像后,将所述镜像图像与所述待检测图像进行拼接;
将拼接后的图像裁剪至与所述待检测图像大小一致,并将裁剪得到的图像作为所述目标图像,其中所述目标图像的中心轴为所述拼接轴线。
本申请实施例提供的一种电子设备,包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行上述任意一种文本检测方法的步骤。
本申请实施例提供一种计算机可读存储介质,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使所述电子设备执行上述任意一种文本检测方法的步骤。
本申请有益效果如下:
本申请实施例提供一种文本检测方法、装置、电子设备和存储介质,由于本申请实施例并非直接对原图像进行文本检测,而是在进行文本检测之前,将原图像沿至少一个目标方向进行了翻转和拼接,进而获得目标图像。由于图像的拼接使得原图像中的被裁剪字符在拼接之后轮廓扩大,因此拼接得到的字符更容易被检测出,并通过文本框标识出来,由于被裁减字符形成的拼接字符位于拼接轴线上,也就是说包含拼接字符的文本框一般是跨越拼接轴线的,因此可以通过文本框是否跨越拼接轴线而定位到标识被裁减字符的文本框,进而根据拼接字符的特征识别出相应的被裁减字符。因而本申请实施例中通过对目标图像进行文本检测,利用文本框可以检测出原图像中可能存在的被裁剪字符,进而利用基于跨越原图像和镜像图像之间拼接轴线的目标文本框中各个字符与拼接轴线之间的位置关系,识别出被裁减字符形成的拼接字符,即可检测出待检测图像包含的各个字符中的被裁剪字符,且该检测技术具有很高的准确率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其它优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中的一种文本检测的一个可选的示意图;
图2为本申请实施例中的一种可选的应用场景示意图;
图3为本申请实施例中的一种文本检测方法的流程图;
图4A为本申请实施例中的第一种目标图像的示意图;
图4B为本申请实施例中的第二种目标图像的示意图;
图4C为本申请实施例中的第三种目标图像的示意图;
图5A为本申请实施例中的一种待检测图像的示意图;
图5B为本申请实施例中的第四种目标图像的示意图;
图6A为本申请实施例中的另一种待检测图像的示意图;
图6B为本申请实施例中的第五种目标图像的示意图;
图6C为本申请实施例中的第六种目标图像的示意图;
图6D为本申请实施例中的第七种目标图像的示意图;
图7A为本申请实施例中的第一种文本框标识的示意图;
图7B为本申请实施例中的第二种文本框标识的示意图;
图7C为本申请实施例中的第三种文本框标识的示意图;
图7D为本申请实施例中的第四种文本框标识的示意图;
图8为本申请实施例中的一种字符级文本检测模型的框架示意图;
图9A为本申请实施例中的另一种待检测图像的示意图;
图9B为本申请实施例中的第一种字符高斯热图的示意图;
图9C为本申请实施例中的第一种字间高斯热图的示意图;
图10A为本申请实施例中的第二种字符高斯热图的示意图;
图10B为本申请实施例中的第二种字间高斯热图的示意图;
图11为本申请实施例中的一种文本框生方法的示意图;
图12A为本申请实施例中的另一种待检测图像的示意图;
图12B为本申请实施例中的一种边缘图像的示意图;
图12C为本申请实施例中的一种霍夫变换结果的示意图;
图12D为本申请实施例中的一种去除毛玻璃效果区域的示意图;
图13A为本申请实施例中的一个可选的交互实现时序流程示意图;
图13B为本申请实施例中的另一个可选的交互实现时序流程示意图;
图14为本申请实施例中的一种文本检测装置的组成结构示意图;
图15为本申请实施例中的一种电子设备的组成结构示意图;
图16为应用本申请实施例的一种计算装置的一个硬件组成结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请技术方案保护的范围。
下面对本申请实施例中涉及的部分概念进行介绍。
1、镜像图像:是指对原始图像镜像翻转360度后得到的图像,在本申请实施例中可以沿任意一个方向上对图像进行镜像翻转,例如:水平镜像、垂直镜像等,其中水平镜像是指将图像的左右部分以图像垂直中轴线为中心进行镜像对换;垂直镜像是将图像的上下两部分以图像水平中轴线为中心进行镜像对换,等等。
2、拼接图像和拼接轴线:在本申请实施例中,以待检测图像为原始图像,将待检测图像和镜像图像拼接后形成的图像,称为拼接图像。和待检测图像拼接的镜像图像,可以是一个也可以是多个,例如一个矩形待检测图像,可以在每个边上与在该边上翻转形成的镜像图像拼接形成拼接图像。
拼接的两个图像是连接在一起的,连接处可以是点也可以是一定长度的边。连接点或者边连接位于拼接轴线上。拼接轴线是指待检测图像与镜像图像进行拼接时的轴对称线,例如图4C所示,图4C的目标图像是待检测图像分别沿上下两个边沿垂直翻转后形成的两个镜像图像,与待检测图像拼接形成的。其中上拼接轴线是待检测图像与上边沿镜像图像的轴对称线,上边沿镜像图像与待检测图像关于这个直线对称;其中的下拼接轴线是待检测图像与下边沿镜像图像的轴对称线,下边沿镜像图像与待检测图像关于这个直线对称。
3、被裁剪字符:指一个原本完整的字符中的部分内容被裁剪掉之后剩余的部分,其中一个字符是一个单位的字形、类字形单位或符号的基本信息,例如电视影像中的字幕等。一般影视作品的对话字幕会出现在屏幕下方,当用户截取正在观看的影视图像时,若未完整截取到图像的边缘,此时则可能导致屏幕下方的字幕被裁剪掉一部分,最终截取到的图像下边界的字幕被截掉了一部分,此时被裁剪的字幕即为被裁剪字符。
4、目标字符:指与拼接轴线相交的字符,在本申请实施例中,相交是指目标字符与拼接轴线有交点。拼接字符是目标字符中的一种,具体是指被裁剪字符与镜像图像中的镜像字符拼接后所组成的字符。在本申请实施例中的拼接字符是关于拼接轴线对称的。而目标字符包含了拼接字符,如果拼接轴线只是和字符的边沿相交,这样的字符不一定被裁剪过。
5、字符级文本检测模型:指字符级别的文本检测网络模型,该类模型是将character(字符)视为一个检测目标对象,而不是一个word(所有的word(词)都由character构成),首先需要先检测单个字符(character region score)及字符间的连接关系(affinity score),然后根据字符间的连接关系确定最终的文本行,进而生成文本框。例如CRAFT(Character Region Awareness for Text,文本的字符区域识别)模型。
6、高斯热图:在本申请实施例中的高斯热图可通过字符级文本检测模型得到的,主要涉及以下两种高斯热图:
1)Region heatmap(字符高斯热图),指以特殊高亮的形式显示图像中字符所在的区域。在字符高斯热图中,字符中心的热度最高,字符边缘和背景热度为0;
2)Affinity heatmap(字间高斯热图),指以特殊高亮的形式显示图像中字符与字符之间的区域。在字间高斯热图中,字符与字符中间的间隔热度最高,非字与字间隔的热度为0。
7、毛玻璃效果:是一个随机替换的过程,实质在一个小范围内随机取一个像素进行替换,实现对图像进行模糊处理的效果。例如我们在手机app(Application,应用程序)中上拉应用时出现背景图像模糊特效,这就是毛玻璃效果。在本申请实施例中,若图像中存在毛玻璃效果,可能会对被裁剪字符的检测产生影响,因而需要对图像进行翻转拼接之前,去除图像中的毛玻璃效果区域。
8、人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请主要涉及人工智能中的机器学习方向,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的机器学习等技术,例如本申请实施例中提出的字符级文本检测模型就涉及到机器学习这一技术领域。通过机器学习这一技术可训练得到字符级文本检测模型。其中,该模型主要用于对图像中的字符进行检测,生成文本框标识图像中的字符所在的区域,实现对图像的文本检测,此外基于该模型还可得到图像的高斯热图。
下面对本申请实施例的设计思想进行简要介绍:
参阅图1所示,为相关技术中使用EAST模型对图像进行文本检测的结果,从图1中可知,正常文本如字幕、文字图标等可以正常被检出,即图1中矩形文本框所标识出的文本;但位于图像上边沿边界或是下边沿边界的被裁剪的字幕无法被检出,即图1中虚线所圈出的部分。
有鉴于此,本申请实施例提出了一种文本检测方法、装置、电子设备和存储介质,针对被裁剪字符无法检出问题,提出一种镜像检测的方法,经过对图像进行翻转和拼接操作,得到镜像文本。相比原先被裁剪的文本,镜像文本的大小为原来文本的2倍,而且保留文字的轮廓特性,从而构造出镜像伪文本。这种镜像伪文本通过相关的文本检测模型即可识别,因而基于文本检测则可通过文本框标识出来。之后则可通过镜像文本的检出位置准确判断是否被裁剪,具体的,由于被裁剪字符形成的拼接字符位于拼接轴线上,因此通过文本框是否跨越拼接轴线即可定位出标识被裁剪字符的文本框,进而根据拼接字符的特征识别出定位到的文本框中相应的被裁剪字符,实现图像中被裁剪字符的检测,并且该检测技术具有很高的准确率。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图2所示,其为本申请实施例的应用场景示意图。该应用场景图中包括两个终端设备210和一个服务器230,可通过终端设备210登录目标业务执行的相关界面220。终端设备210与服务器230之间可以通过通信网络进行通信。
在一种可选的实施方式中,通信网络是有线网络或无线网络。终端210以及服务器230可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在本申请实施例中,终端设备210为用户使用的电子设备,该电子设备可以是个人计算机、手机、平板电脑、笔记本、电子书阅读器等具有一定计算能力并且运行有即时通讯类软件及网站或者社交类软件及网站的计算机设备。各终端设备210通过无线网络与服务器230连接,服务器230是一台服务器或若干台服务器组成的服务器集群或云计算中心,或者是一个虚拟化平台。
在本申请实施例中,字符级文本检测模型一般部署在服务器230,有时也可直接部署在终端设备210。以该字符级文本检测模型部署在服务器230为例,终端设备210接收到当用户A输入的文本检测指令后,将待检测图像发送给服务器230,服务器230将接收到的待检测图像沿至少一个目标方向进行镜像翻转拼接,构建出目标图像后,通过字符级文本检测模型对目标图像进行文本检测得到至少一个文本框,之后根据文本框中字符的位置,识别出该文本框中被裁剪的字符。服务器230还可将识别出的被裁剪的字符通知终端设备210,进而通过终端设备210标记处被裁剪的字符向用户A进行展示等。
本申请实施例提出的文本检测方法可用于图像、视频、视频封面等内容的字幕裁剪检测。此外,某些内容发文平台的后台审核流程中有质量检测能力的需求,基于本申请实施例中提出的文本检测方法则可对字幕等文本裁剪类型的低质内容进行拦截或标记,提高内容发文平台的质量检测能力。
参阅图3所示,为本申请实施例提供的一种文本检测方法的实施流程图,该方法的具体实施流程如下:
S31:将待检测图像沿至少一个目标方向翻转获得的镜像图像与待检测图像拼接,获得目标图像;
在本申请实施例中,待检测图像可以是任意形状,例如多边形等。
其中,目标方向可以是任意一个方向。以待检测图像为多边形为例,目标方向可以是沿着多边形任意一条边的方向,或者是水平方向、垂直方向等等。例如待检测图像为矩形时,将待检测图像沿着任意一条边进行翻转,例如沿着图像上边沿垂直向上翻转、沿着图像下边沿垂直向下翻转、沿着图像左边沿水平向左翻转、沿着图像右边沿水平向右翻转等。
下面主要以待检测图像为矩形为例进行详细介绍:
在本申请实施例中,将待检测图像沿至少一个目标图像翻转获得的镜像图像与待检测图像拼接,获得目标图像时,若需要对目标图像进行多个目标方向的翻转,则可将待检测图像沿各个目标方向翻转得到的镜像图像分别与待检测图像拼接,得到多个目标图像。例如将待检测图像沿垂直方向翻转得到的镜像图像与待检测图像拼接得到一个目标图像,将待检测图像沿水平方向翻转得到的镜像图像与待检测图像拼接得到一个目标图像。
在本申请实施例中,还可以将待检测图像沿垂直方向翻转得到的所有镜像图像与待检测图像拼接为一个目标图像。例如将待检测图像沿垂直方向翻转得到的镜像图像,以及将待检测图像沿水平方向翻转得到的镜像图像与待检测图像拼接得到一个目标图像。
此外,考虑到矩形图像在垂直方向或者水平方向上的边沿有两个,以垂直方向为例,在将待检测图像沿垂直方向翻转得到镜像图像后,可将镜像图像与待检测图像的上边沿拼接得到目标图像,也可将镜像图像与待检测图像的下边沿拼接得到目标图像,还可将镜像图像与待检测图像的上下边沿都拼接得到目标图像。
例如待检测图像为图1中所示的图像(指去掉文本框后的原图像),目标方向为垂直方向,在垂直方向上对待检测图像进行翻转拼接时,包括向上翻转和向下翻转两种方式。此时,则可在将待检测图像沿上边沿垂直向上翻转得到上边沿镜像图后,将上边沿镜像图与待检测图像拼接得到第一目标图像,如图4A所示;在将待检测图像沿下边沿垂直向下翻转得到下边沿镜像图后,将下边沿镜像图与待检测图像拼接得到第二目标镜像图,如图4B所示。此时图4A与图4B中各有一条拼接轴线。
或者如图4C所示,分别将待检测图像沿上边沿垂直向上翻转得到上边沿镜像图像以及沿下边沿垂直向下翻转得到的下边沿镜像图后,将上边沿镜像图、下边沿镜像图以及待检测图像拼接组成一个目标图像,此时图4C中共有两条拼接轴线,即包括上拼接轴线,又包括下拼接轴线。
仍以矩形图像为例,图4A至图4C中主要是以被裁剪字符位于图像的上边沿或者下边沿为例进行介绍的,当然被裁剪字符还可以位于图像的左边沿或者右边沿,如图5A所示的图像,其中图像右边沿处宝宝上线的线字属于被裁剪字符,此时可将图像进行左翻转、右翻转或者左右翻转,即目标方向为水平方向,例如将图5A所示图像分别沿图像左边沿水平向左翻转得到左镜像图,以及沿图像右边沿水平向右翻转得到右镜像图后,将左镜像图、右镜像图与待检测图像拼接得到如图5B所示的目标图像,其中一共包含两条拼接轴线,分别为左镜像图与待检测图像拼接时的左拼接轴线,以及右镜像图与待检测图像拼接时的右拼接轴线。
在本申请实施例中,当待检测图像为矩形时,一般被裁剪字符会位于图像的边沿,例如图4A或者图6A中所示的图像,其中图像的下边沿位置处存在被裁剪字符。在对图6A所示的待检测图像进行检测时,可通过上下翻转拼接得到目标图像,拼接效果如图6B所示,但是上下翻转会导致拼接后得到的图像长宽比太过极端。因此为了调整目标图像长宽比,同时也为了避免图像中间区域的文本干扰,可仅留沿镜像图与待检测图像拼接得到的图像中间的部分区域,其它区域用某一像素点替换,例如用黑色像素点替换,将图像裁剪至与原图大小一致。具体过程如下:
将待检测图像沿目标方向进行翻转得到镜像图像后,将镜像图像与待检测图像进行拼接;将拼接后的图像裁剪至与待检测图像大小一致,并将裁剪得到的图像作为目标图像,并将目标图像中除中间10%区域之外的其它区域用黑色像素点替换,其中目标图像的中心轴为拼接轴线。
例如图6C所示,目标图像为待检测图像与下边沿镜像图像拼接后裁剪得到的,目标图像的中心轴为待检测图像的下边沿边界,也就是下拼接轴线,图像中除中间部分区域外,其它区域被抹黑;如图6D所示,目标图像为待检测图像与上边沿镜像图像拼接后裁剪得到的,目标图像的中心轴为待检测图像的上边沿边界,也就是上拼接轴线,图像中除中间部分区域外,其它区域被抹黑。
在上述实施方式中,对拼接后的图像进行裁剪,将图像中的其它区域抹黑,可以有效避免图像中间区域的文本干扰,提高检测效果。
需要说明的是,在对矩形图像进行左右翻转时也可能会存在同样的情况,例如图5B所示的图像,此时也可对图像进行裁剪,只是裁剪后的目标图像的中心轴为左拼接轴线或者右拼接轴线。此外,将待检测图像沿至少一个目标方向进行翻转时,并不限定于上述列举的几种方向,当待检测图像为其它形状时,例如三角形,则可沿着三角形任意一条边的方向对图像进行翻转,上述任意一种文本检测方法同样适用,重复之处不再赘述。
此外,在本申请实施例中,以矩形图像为例,对图像进行镜像翻转拼接的形式不限定于水平左右翻转,拼接成一张图像,或者上下翻转分别保留上翻拼接图和下翻拼接图等,也可以是同时对图像进行左右翻转以及上下翻转等。或者预先判断一下图像中的被裁剪字符位于图像的哪个或者哪些边界,然后确定出与这些边界相关的目标方向,例如图5A所示的图像仅进行右翻转即可,图6A所示的图像仅进行下翻转即可,该方式下则不再需要得到图6C所示的不包含文本的目标图像,提高检测效率。
S32:对目标图像进行文本检测,生成至少一个标识目标图像中的字符所在区域的文本框;
在本申请实施例中,对目标图像进行文本检测时,可采用文本检测模型,例如将图4B所示的目标图像输入字符级文本检测模型CRAFT,生成标识该图像中字符所在区域的文本框,最中输出的结果如图7A所示,其中图1中图像下边沿被裁剪的字符通过翻转拼接后则可被检测出来,并在图像中通过文本框进行标识,如图7A中的文本框S7a。
例如,将图5B所示的目标图像输入字符级文本检测模型CRAFT,最终生成标识该图像中字符所在区域的文本框,最中输出的结果如图7B所示,其中图5B中图像右边沿被裁剪的字符通过翻转拼接后则可被检测出来,并在图像中通过文本框进行标识,如图7B中的文本框S7b1和S7b2。其中在文本比较贴近图像左右边缘时,翻转之后的也会被检测为同一文本,如图7B中文本框S7b1中待检测图像中“40周年孕知道”与右翻转得到的镜像图中“40周年孕知道”被框为同一个文本。
再例如,将图6C所示的目标图像输入字符级文本检测模型CRAFT,最终生成标识该图像中字符所在区域的文本框,最中输出的结果如图7C所示,其中图6C中图像下边沿被裁剪的字符通过翻转拼接后则可被检测出来,并在图像中通过文本框进行标识,如图7C中的文本框S7c。
需要说明的是,上述所列举的CRAFT只是举例说明,其它字符级文本检测模型同样适用于本申请实施例,在此不做具体限定。
在上述实施例中,采用字符级文本检测模型进行文本检测,使用小感受野也能预测大文本和长文本,只需要关注字符级别的内容而不需要关注整个文本实例,此外在训练过程中对于合成样本可以很好地进行单个字符的标注。
S33:从各个文本框中确定目标文本框,目标文本框跨越待检测图像和镜像图像之间的拼接轴线;
在一种可选的实施方式中,针对任意一个文本框,可通过如下方式判断该文本框是不是目标文本框:
若所述文本框在所述目标方向上的边界与所述拼接轴线相交,且所述文本框的其它边界与所述拼接轴线之间的距离在指定距离范围内,则确定所述文本框为目标文本框。
其中,文本框在目标方向上的边界与拼接轴线相交时,有可能仅是文本框在目标方向上的边界的端点与拼接轴线相交,例如图7B中所示的文本框S7b3,但是实际上该文本框并未跨越左拼接轴线。因此还需要进一步根据其它边界与拼接轴线之间的距离来进一步判断,当文本框的其它边界与拼接轴线之间的距离在指定距离范围内时,则可确定该文本框为目标文本框。
假设指定距离范围为大于预设距离阈值a,其中a=3pixel(像素),例如图7B中的文本框S7b1和S7b2,这两个文本框在水平方向上的边界即文本框的上边界、下边界是与右拼接轴线相交的,并且左右边界距离右拼接轴线在指定距离范围内,因此这两个文本框为目标文本框。而对于文本框S7b3,虽然该文本框与左拼接轴线相交,但是该文本框的右边界与左拼接轴线之间的距离小于预设距离阈值,显然不在指定距离范围内,因此该文本框不属于目标文本框。同理,可判断出文本框S7a和文本框S7c也属于目标文本框。
在上述实施方式中,基于文本框与拼接轴线之间的位置关系可直接对文本框进行筛选,首先剔除掉不可能包含被裁剪字符的文本框,也就是不会跨越待检测图像和镜像图像之间的拼接轴线的文本框,而是仅出现在待检测图像,或者是仅出现在镜像图像中的文本框,例如文本框S7b3等。之后,则仅需要对剩余的文本框,也就是目标文本框中的字符进行检测,缩小被裁剪字符的识别范围,提高检测效率。
S34:根据目标文本框中各个字符与拼接轴线之间的位置关系,识别待检测图像包含的各个字符中的被裁剪字符。
在本申请实施例中,目标文本框为跨越待检测图像和镜像图像之间的拼接轴线的文本框,例如文本框S7a,S7b1,S7b2,S7c等。
在一种可选的实施方式中,识别被裁剪字符时,首先将目标文本框中与拼接轴线相交的字符确定为目标字符;进一步从目标字符中确定出拼接字符,其中拼接字符是由被裁剪字符和镜像图像中的镜像字符拼接而成的;根据确定出的拼接字符,则可确定待检测图像中的被裁剪字符。
该方式下,并非目标文本框中所有的字符都是被裁剪字符,有一部分字符只是通过镜像得到的,如文本框S7b1中的:4、0、周、孕、知,文本框S7b2中的:宝、宝、上。由于被裁剪字符是通过扩大轮廓后被识别出来的,因此这些字符存在于与拼接轴线相交的字符,也就是目标字符中,因此从目标字符中确定拼接字符,进而则可识别出被裁剪字符,基于字符与拼接轴线之间的位置关系,进一步缩小了字符的识别范围,提高检测效率。
在一种可选的实施方式中,从目标字符中确定出拼接字符的方式是根据目标文本框中的字符的排列方向与目标方向之间的关系来确定的,具体可分为以下几种情况:
情况一、目标文本框中的字符的排列方向与目标方向垂直,此时从目标字符中确定出拼接字符的具体过程为:
针对任意一个目标字符,若目标字符的中心偏离待检测图像的中心不超过预设比例阈值,则确定目标字符为拼接字符。
其中,目标文本框中的字符的排列方向与目标方向垂直的情况有很多种,例如目标方向为垂直方向,而目标文本框中的字符为水平方向,如文本框S7a,S7c;或者目标方向为水平方向,而目标文本框中的字符为垂直方向,等等。
下面以图7A所示的目标文本框S7a为例进行详细介绍,该目标文本框中的11个字符都与拼接轴线相交,都属于目标字符,因此,在判断这11个字符是不是拼接字符时,则可进一步判断字符的中心偏离待检测图像的中心是不是超过预设比例阈值。假设预设比例阈值为20%,由于这些字符的中心都在拼接轴线上,这些字符的中心偏离待检测图像中心不超过20%,也就是说这11个字符都是拼接字符,并且这些字符的拼接方向为垂直方向,因此根据这些拼接字符以及拼接轴线,即可确定这些拼接字符在待检测图像中的部分即属于被裁剪字符,且这些字符为上下裁剪字符。
需要说明的是,上述列举的都是以目标文本框为横排文本框或者竖排文本框为例介绍的,当然目标文本框也可以是倾斜的文本框时,此时目标方向也不垂直方向或者水平方向,例如图7D所示,待检测图像为三角形时,沿着三角形某一条边的方向对待检测图像进行翻转和拼接后检测得到的目标文本框也是倾斜的,该情况下上述任意一种文本检测方法同样适用。
情况二、目标文本框中的字符的排列方向与目标方向平行,此时从目标字符中确定出拼接字符的具体过程如下:
针对任意一个目标字符,确定目标字符与拼接轴线的相交位置对应的目标区域;若目标区域对应的字符得分高于目标区域对应的字间得分,则确定目标字符为拼接字符;其中,目标区域对应的字符得分以及字间得分是根据目标图像对应的高斯热图确定的。
其中,高斯热图包括字符高斯热图以及字间高斯热图;通过下列方式确定目标图像对应的高斯热图:
通过字符级文本检测模型对目标图像中的字符进行检测,得到目标图像对应的字符高斯热图;以及,对目标图像中字符与字符之间的间隔进行检测,得到目标图像对应的字间高斯热图。
在本申请实施例中,主要以字符级文本检测模型为CRAFT为例进行详细介绍,其中CRAFT的网络结构如图8所示,主要包括:1)特征提取,基于VGG16(Visual GeometryGroup16,视觉几何组)bottleneck(瓶颈)网络进行特征提取;2)特征融合,4个upsample(升采样)模块用于不同尺度的特征融合,3)输出层,4个conv(卷积)层作为最终的输出层,输出字符高斯热图Region heatmap和字间高斯热图Affinity heatmap。
以图9A所示的图像为例,该图中一共包括5个字符分别为:你、在、瞧、啥以及问号(?),其中图9B所示为图9A所示图像对应的字符高斯热图,由图可知,字符所在区域亮度较高,其中字符中心热图最高,字符边缘和背景热度为0。图9C表示9A所示图像对应的字间高斯热图,由图可知字符与字符中间的间隔热度最高,非字与字间隔的热度为0。
在本申请实施例中,目标文本框中的字符的排列方向与目标方向平行的情况也有很多种,例如目标方向为垂直方向,而目标文本框中的字符也为垂直方向;或者目标方向为水平方向,而目标文本框中的字符也为水平方向,如图7B所示的目标图像,其中文本框中的字符排列方向都是水平方向,与拼接轴线相交的文本框,也就是目标文本框为S7b1、S7b2,等等。
在上述实施方式中,考虑到针对目标文本框中的字符的排列方向与目标方向平行的情形下,如果文本比较贴近拼接轴线,翻转之后也会被检测为同一文本,从而将贴近拼接轴线的文本也判定为裁剪。例如图7B所示的水平裁剪的情形,在文本比较贴近图像左右边缘时,翻转之后的也会被检测为同一文本,如文本框S7b1。在图7B中中间部分图像为待检测图像,左侧部分图像为左翻转得到的镜像图像,右侧部分图像为右翻转得到的镜像图像,其中文本框S7b1中待检测图像中“40周年孕知道”与右翻转得到的镜像图中“40周年孕知道”被框为同一个文本,按照文本框的位置判定,会因为横跨右拼接轴线被判定为裁剪,但其实并没有裁剪。而文本框S7b2中的“宝宝上线”翻转与拼接轴线的交点,对应字间高斯热图是亮区,字符高斯热图是暗区,表示该位置是一个字间。而“40周年孕知道”跟拼接轴线相交的位置,对应字符高斯热图是暗区,字符高斯热图是亮区,表示该位置是一个字符。
下面对文本框S7b1和文本框S7b2中被裁剪字符的识别过程进行详细介绍:
在本申请实施例中,采用上述方式即可得到图7B所示的图像对应的字符高斯热图,如图10A所示,以及图7B所示的图像对应的字间高斯热图,如图10B所示。
其中,图10A中白框S1表示字符道对应的目标区域所对应的字符高斯热图块(patch),白框S2表示字符线对应的目标区域所对应的字符高斯热图块,其中目标区域是指目标字符在拼接轴线附近的区域,该区域不一定包含整个目标字符,但是包含目标字符与拼接走下相交的位置,并且是固定大小的区域,其大小可根据图像中被检测字符的大小以及字符之间的间隔来确定。
如图10B所示,为图7B所示图像对应的字间高斯热图,其中白框S3表示字符道对应的目标区域所对应的字间高斯热图块;白框S4表示字符线对应的目标区域所对应的字间高斯热图块。
其中,目标区域对应的字符得分是通过下列方式确定的:
获取目标区域在字符高斯热图上对应的字符高斯热图块,并将字符高斯热图块中所有像素对应的激活值的均值作为目标区域对应的字符得分。
同样的,目标区域对应的字间得分是通过下列方式确定的:
获取目标区域在字间高斯热图上对应的字间高斯热图块,并将字间高斯热图块中所有像素对应的激活值的均值作为目标区域对应的字间得分。
由图10A及图10B可知,很显然,字符道所对应目标区域在字符高斯热图上对应的字符高斯热图块S1中暗区域较多,亮区域较少,而在字间高斯热图上对应的字间高斯热图块S3中亮区域较多,暗区域较少,因此其字符得分低于字间得分,表示该字符不是拼接字符,而是贴边字符;相反,字符线所对应目标区域在字符高斯热图上对应的字符高斯热图块S2中亮区域较多,暗区域较少,而在字间高斯热图上对应的字间高斯热图块S4中亮区域较少,暗区域较多,因此其字符得分高于字间得分,该字符属于拼接字符。
在上述实施方式中,根据本申请实施例中提出的基于高斯热图的判定方法,可以将被裁剪字符和贴边的字符正确的区分,有效准确的检测出被裁剪字符,减小误判。
在本申请实施例中,基于字符级文本检测模型生成文本框时,实质上用于标识目标图像中字符所组成文本行的文本框是基于多边形合成方法的方式得到,具体过程如下:
首选需要获取目标图像对应的字符高斯热图以及字间高斯热图,分别对字符高斯热图取激活值大于阈值的像素所组成的区域,得到每个字符的区域,以及对字间高斯热图取激活值大于阈值的像素所组成的区域,得到每个字符中心的区域;之后基于字符的边缘位置以及字符的中心位置来生成多边形文本框。
下面以通过四边形合成算法生成四边形文本框为例进行详细介绍:
根据字符高斯热图和字间高斯热图,可以通过四边形合成算法获得最终的文本框。如图11所示,分别对字符高斯热图和字间高斯热图取激活值大于阈值的区域,得到每个字符的区域(即图11中的椭圆区域)和字符中心的区域,之后取每个字符的中心区域,将所有中心点连接起来,如图11中虚线所示,并在每个字符的中心点处,分别画一条垂直与中心线的垂线,如图11中粗实线所示,找到上下边沿支持点,即图11中的圆点,左右两边往外扩张至字符边缘,最后将所有支持点连接起来,即可得到四边形文本框。基于类似方法还可得到多边形文本框,重复之处不再详细说明。
需要说明的是,上述实施例中列举的被裁剪的字符主要以在水平方向或者垂直方向上的被裁剪字符,实际上任意一个方向上的被裁剪字符都可以采用上述实施例中所列举的文本检测方法进行检测。此外,本申请实施例中所列举的文本框主要是矩形文本框,其它多边形文本框也同样适用于本申请实施例,具体检测方法与四边形文本框类似,重复之处不再赘述。
此外,考虑到一些图像中可能会存在非正常文本,例如艺术字、图标等,当本申请实施例中的方法应用于被裁剪字幕检测时,例如影视作品的对话字幕、戏剧作品的字幕等,则需要对这些非正常文本进行过滤。考虑到影视作品字幕一般是出现在屏幕下方,而戏剧作品的字幕,则可能显示于舞台两旁或上方,并且这些字幕一般不会是倾斜的,因此,可以在筛选目标文本框时,再添加一些附加条件,例如在检测垂直方向上的被裁减字幕时,附加条件包括但不限于下列的部分或全部:
文本框高度小于28pixel并且大于5pixel;文本框长宽比例不小于2;文本框旋转角度不超过15度;文本框的位置距离图像的边缘不超过图像高度的5%。
在上述4个条件中,通过对文本框大小的限制可以有效排出一些艺术字的干扰,通过文本框旋转角度的限制可以有效排除倾斜文本的干扰,通过文本框位置距离的限定可以有效排除距离图像边缘较近的文本框的干扰,基于这些条件可以有效过滤掉无效的非字幕文本的干扰。
可选的,在检测水平方向上的被裁减字幕时,附加条件包括但不限于下列的部分或全部:
文本框高度小于50pixel并且大于10pixel;文本框旋转小于15度;文本框长宽比不小于1.5;文本框左右两边距离两个镜像轴的距离均不小于图像宽度的30%;文本框的位置距离图像上下边缘至少超过5%。
同样的,基于以上5个条件中的部分或全部可以有效过滤掉无效的非字幕文本的干扰。
需要说明的是,上述列举的一些附加条件适用于检测被裁剪字幕的应用场景下,并且都是基于一些常见字幕的特性总结出来的,一般考虑的字幕都是水平方向排列的,当然字幕采用竖直方向排列时的基本原理与上述实施例相似,重复之处不再赘述,具体条件可依据实际环境进行调整。
在本申请实施例中,考虑到小视频常存在预设效果的边界区域,例如毛玻璃效果,还可以是黑色或单一色彩背景边界、其他图案的边界、和内容画面不同的动态或静态的其他图/动画/广告等构成的边界区域等。由于边界区域的干扰,会导致一些被裁剪字符无法正确检出。即使利用了翻转策略,也无法达到翻转拼凑的作用,因为翻转后字符中间会被边界区域隔开。因此,在将待检测图像沿至少一个目标方向翻转获得的镜像图像与待检测图像拼接之前,需要对待检测图像进行检测,在识别到待检测图像中存在预设效果的边界区域时,对待检测图像中的边界区域进行去除处理。
在一种可选的实施方式中,本申请实施例提出了一种基于边缘检测和霍夫变换的方法进行边界去除。具体过程为:
对待检测图像进行边缘检测,得到待检测图像对应的边缘图像;通过霍夫变换检测边缘图像中的直线,并基于检测到的直线去除待检测图像中的边界区域。
下面以毛玻璃效果为例进行详细介绍,如图12A所示,为本申请实施例提供的一种待检测的图像,其中,图像左右两侧的模糊区域即毛玻璃效果区域,首先利用canny(坎尼)算法检测待检测图像的边缘,即可得到边缘图像如图12B所示。接着在边缘图像上用霍夫变换检测直线,如图12C所示,图12C中两条粗实线即为霍夫变换的检测结果。最后将两条直线之外的部分去除,最终得到无毛玻璃效果的图像,如图12D所示。
其中,边缘检测算法有很多种,除了canny算法之外,还包括:Roberts Cross(罗伯特交叉)算法,Prewitt(蒲瑞维特)算法,Sobel(索贝尔)算法,罗盘算法,Laplacian(拉普拉斯)算法等。
需要说明的是,本申请实施例中的毛玻璃去除方式不限定于霍夫变换检测直线,还可以通过视觉的方案识别出毛玻璃效果区域,再将毛玻璃效果区域裁掉等等,在此不做具体限定,任何一种毛玻璃去除方法都适用于本申请实施例。
可以理解,除了毛玻璃效果的边界区域,本申请实施例中的预设效果的边界区域为其他预设类型时,例如上述提到的单一色彩(图案等)、静态/动态画面、视频等,针对这些类型的边界区域,具体去除方式如下:
当所述边界区域为单一色彩时,采用类似去毛玻璃的方法,通过边缘检测和霍夫变换的方法进行去除。
当所述边界区域为静态/动态画面、视频时,则需要检测出哪部分是背景内容,哪一部分是内容画面,从而确定出内容画面的边缘,得到边界区域的范围,并将边界区域去除。可通过如上述的边缘检测和霍夫变换的方法去除,也可通过如像素变化、机器学习等进行识别进而去除。
参阅图13A所示,为一种被裁剪字符的完整检测方法时序图。该方法的具体实施流程如下:
S131:获取待检测图像;
S132:判断待检测图像中是否存在毛玻璃效果区域,如果是,则执行步骤S133;否则执行步骤S134;
S133:通过霍夫变换去除待检测图像中的毛玻璃效果区域;
S134:将待检测图像沿水平方向进行左右翻转得到左镜像图和右镜像图,分别将左镜像图和右镜像图与待检测图像拼接得到目标图像;
S135:将目标图像输入CRAFT,得到目标图像对应的字符高斯热图、字间高斯热图,以及标识目标图像中的字符所在区域的文本框;
S136:将各个文本框中跨越待检测图像和左镜像图之间拼接轴线,或者跨越待检测图像和右镜像图之间拼接轴线的文本框作为目标文本框;
S137:判断目标文本框中的任意一个字符是否与拼接轴线相交,如果是,则执行步骤S138,否则执行步骤S1311;
S138:确定该字符与所述拼接轴线的相交位置对应的目标区域,并获取目标区域对应的字符得分和字间得分;
S139:判断该字符对应的字符得分是否高于字间得分,如果是,则执行步骤S1310,否则,执行步骤S1311;
S1310:确定该字符为水平方向上的被裁剪字符;
S1311:确定该字符不是水平方向上的被裁剪字符。
参阅图13B所示,本申请实施例提供的另一种被裁剪字符的完整检测方法时序图,主要应用于字幕的检测。该方法的具体实施流程如下:
将输入的图像进行毛玻璃去除,进而进行镜像翻转拼接,得到目标图像后输入CRAFT模型得到对应的字符高斯热图和字间高斯热图,并基于这两个高斯热图生成文本框标识字符,最终基于字符高斯热图、字间高斯热图等进行异常字幕判断,识别出其中的被裁剪字符,输出检测结果。
下面基于两个表格对本申请实施例中的文本检测方法进行介绍。
表1字幕裁剪检测的结果
标注集召回个数 大盘召回个数 召回率 准确率
160/231 180/10000 69.20% 90.50%
其中,表1主要介绍的是基于本申请实施例的的方法进行字幕裁剪检测时的一个统计数据,其中准确率达到了90.50%。
表2不同类目字幕裁剪检测的效果
类别 正确数 样本数 正确率
电视剧 69 72 0.96
电影 33 36 0.92
其它 14 15 0.93
综艺 8 11 0.73
新闻 9 10 0.9
表2主要介绍的是不同类目的字幕裁剪检测效果的一个对比。其中综艺类和娱乐类的字幕的检测准确率较新闻类、电影类、电视剧类和其它类别的字幕准确率略低一些,但是整体准确率较高,即采用本申请实施例中的方法可以准确高效的检测出图像中的被裁剪字符。
如图14所示,其为本申请实施例提供的一种文本检测方法装置的结构示意图,可以包括:
图像处理单元1401,用于将待检测图像沿至少一个目标方向翻转获得的镜像图像与待检测图像拼接,获得目标图像;
文本检测单元1402,用于对目标图像进行文本检测,生成至少一个标识目标图像中的字符所在区域的文本框;
目标确定单元1403,用于从各个文本框中确定目标文本框,目标文本框跨越待检测图像和镜像图像之间的拼接轴线;
字符识别单元1404,用于根据目标文本框中各个字符与拼接轴线之间的位置关系,识别待检测图像包含的各个字符中的被裁剪字符。
可选的,目标确定单元1403具体用于:
针对任意一个文本框,若文本框在目标方向上的边界与拼接轴线相交,且文本框的其它边界与拼接轴线之间的距离在指定距离范围内,则确定文本框为目标文本框。
可选的,字符识别单元1404具体用于:
将目标文本框中,与拼接轴线相交的字符确定为目标字符;
从目标字符中确定出拼接字符,拼接字符由被裁剪字符和镜像图像中的镜像字符拼接而成;
根据确定出的拼接字符,确定待检测图像中的被裁剪字符。
可选的,当目标文本框中的字符的排列方向与目标方向垂直时,字符识别单元1404具体用于:
针对任意一个目标字符,若目标字符的中心偏离待检测图像的中心不超过预设比例阈值,则确定目标字符为拼接字符。
可选的,当目标文本框中的字符的排列方向与目标方向平行时,字符识别单元1404具体用于:
针对任意一个目标字符,确定目标字符与拼接轴线的相交位置对应的目标区域;
若目标区域对应的字符得分高于目标区域对应的字间得分,则确定目标字符为拼接字符;
其中,目标区域对应的字符得分以及字间得分是根据目标图像对应的高斯热图确定的。
可选的,高斯热图包括字符高斯热图以及字间高斯热图;文本检测单元1402还用于通过下列方式确定目标图像对应的高斯热图:
通过字符级文本检测模型对目标图像中的字符进行检测,得到目标图像对应的字符高斯热图;以及
对目标图像中字符与字符之间的间隔进行检测,得到目标图像对应的字间高斯热图。
可选的,字符识别单元1404还用于通过下列方式确定目标区域对应的字符得分:
获取目标区域在字符高斯热图上对应的字符高斯热图块,并将字符高斯热图块中所有像素对应的激活值的均值作为目标区域对应的字符得分;以及
通过下列方式确定目标区域对应的字间得分:
获取目标区域在字间高斯热图上对应的字间高斯热图块,并将字间高斯热图块中所有像素对应的激活值的均值作为目标区域对应的字间得分。
可选的,图像处理单元1401还用于在将待检测图像沿至少一个目标方向翻转获得的镜像图像与待检测图像拼接之前:
识别到待检测图像中存在预设效果的边界区域时,对待检测图像中的边界区域进行去除处理。
可选的,图像处理单元1401具体用于:
对待检测图像进行边缘检测,得到待检测图像对应的边缘图像;
通过霍夫变换检测边缘图像中的直线,并基于检测到的直线去除待检测图像中的边界区域。
可选的,图像处理单元1401具体用于:
将待检测图像沿目标方向进行翻转得到镜像图像后,将镜像图像与待检测图像进行拼接;
将拼接后的图像裁剪至与待检测图像大小一致,并将裁剪得到的图像作为目标图像,其中目标图像的中心轴为拼接轴线。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
在介绍了本申请示例性实施方式的文本检测方法和装置之后,接下来,介绍根据本申请的另一示例性实施方式的文本检测装置。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,本申请实施例还提供一种电子设备,参阅图15所示,电子设备1500可以至少包括至少一个处理器1501、以及至少一个存储器1502。其中,存储器1502存储有程序代码,当程序代码被处理器1501执行时,使得处理器1501执行本说明书上述描述的根据本申请各种示例性实施方式的文本检测方法中的步骤。例如,处理器1501可以执行如图3中所示的步骤。
在一些可能的实施方式中,本申请实施例还提供一种计算装置,可以至少包括至少一个处理单元、以及至少一个存储单元。其中,存储单元存储有程序代码,当程序代码被处理单元执行时,使得处理单元执行本说明书上述描述的根据本申请各种示例性实施方式的服务调用方法中的步骤。例如,处理单元可以执行如图3中所示的步骤。
下面参照图16来描述根据本申请的这种实施方式的计算装置160。图16的计算装置160仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图16,计算装置160以通用计算装置的形式表现。计算装置160的组件可以包括但不限于:上述至少一个处理单元161、上述至少一个存储单元162、连接不同系统组件(包括存储单元162和处理单元161)的总线163。
总线163表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储单元162可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1621和/或高速缓存存储单元1622,还可以进一步包括只读存储器(ROM)1623。
存储单元162还可以包括具有一组(至少一个)程序模块1624的程序/实用工具1625,这样的程序模块1624包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算装置160也可以与一个或多个外部设备164(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与计算装置160交互的设备通信,和/或与使得该计算装置160能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口165进行。并且,计算装置160还可以通过网络适配器166与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器166通过总线163与用于计算装置160的其它模块通信。应当理解,尽管图中未示出,可以结合计算装置160使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在一些可能的实施方式中,本申请提供的文本检测方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的文本检测方法中的步骤,例如,计算机设备可以执行如图3中所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (15)

1.一种文本检测方法,其特征在于,该方法包括:
将待检测图像沿至少一个目标方向翻转获得的镜像图像与所述待检测图像拼接,获得目标图像;
对所述目标图像进行文本检测,生成至少一个标识所述目标图像中的字符所在区域的文本框;
从各个文本框中确定目标文本框,所述目标文本框跨越所述待检测图像和所述镜像图像之间的拼接轴线;
根据目标文本框中各个字符与所述拼接轴线之间的位置关系,识别所述待检测图像包含的各个字符中的被裁剪字符。
2.如权利要求1所述的方法,其特征在于,所述从各个文本框中确定目标文本框,包括:
针对任意一个文本框,若所述文本框在所述目标方向上的边界与所述拼接轴线相交,且所述文本框的其它边界与所述拼接轴线之间的距离在指定距离范围内,则确定所述文本框为目标文本框。
3.如权利要求1所述的方法,其特征在于,所述根据目标文本框中各个字符与所述拼接轴线之间的位置关系,识别所述待检测图像包含的各个字符中的被裁剪字符,具体包括:
将所述目标文本框中,与拼接轴线相交的字符确定为目标字符;
从所述目标字符中确定出拼接字符,所述拼接字符由所述被裁剪字符和镜像图像中的镜像字符拼接而成;
根据确定出的拼接字符,确定所述待检测图像中的被裁剪字符。
4.如权利要求2所述的方法,其特征在于,当所述目标文本框中的字符的排列方向与所述目标方向垂直时,从所述目标字符中确定出拼接字符,包括:
针对任意一个目标字符,若所述目标字符的中心偏离所述待检测图像的中心不超过预设比例阈值,则确定所述目标字符为拼接字符。
5.如权利要求2所述的方法,其特征在于,当所述目标文本框中的字符的排列方向与所述目标方向平行时,从所述目标字符中确定出拼接字符,包括:
针对任意一个目标字符,确定所述目标字符与所述拼接轴线的相交位置对应的目标区域;
若所述目标区域对应的字符得分高于所述目标区域对应的字间得分,则确定所述目标字符为拼接字符;
其中,所述目标区域对应的字符得分以及字间得分是根据所述目标图像对应的高斯热图确定的。
6.如权利要求5所述的方法,其特征在于,所述高斯热图包括字符高斯热图以及字间高斯热图;通过下列方式确定所述目标图像对应的高斯热图:
通过字符级文本检测模型对所述目标图像中的字符进行检测,得到所述目标图像对应的字符高斯热图;以及
对所述目标图像中字符与字符之间的间隔进行检测,得到所述目标图像对应的字间高斯热图。
7.如权利要求6所述的方法,其特征在于,通过下列方式确定所述目标区域对应的字符得分:
获取所述目标区域在所述字符高斯热图上对应的字符高斯热图块,并将所述字符高斯热图块中所有像素对应的激活值的均值作为所述目标区域对应的字符得分;以及
通过下列方式确定所述目标区域对应的字间得分:
获取所述目标区域在所述字间高斯热图上对应的字间高斯热图块,并将所述字间高斯热图块中所有像素对应的激活值的均值作为所述目标区域对应的字间得分。
8.如权利要求1~7任一所述的方法,其特征在于,在所述将待检测图像沿至少一个目标方向翻转获得的镜像图像与所述待检测图像拼接之前,还包括:
识别到所述待检测图像中存在预设效果的边界区域时,对所述待检测图像中的边界区域进行去除处理。
9.如权利要求8所述的方法,其特征在于,所述识别到所述待检测图像中存在预设效果的边界区域时,对所述待检测图像中的边界区域进行去除处理,包括:
对所述待检测图像进行边缘检测,得到所述待检测图像对应的边缘图像;
通过霍夫变换检测所述边缘图像中的直线,并基于检测到的直线去除所述待检测图像中的边界区域。
10.如权利要求1~7任一所述的方法,其特征在于,所述将待检测图像沿至少一个目标方向进行翻转得到的镜像图像与所述待检测图像拼接,获得目标图像,包括:
将所述待检测图像沿所述目标方向进行翻转得到镜像图像后,将所述镜像图像与所述待检测图像进行拼接;
将拼接后的图像裁剪至与所述待检测图像大小一致,并将裁剪得到的图像作为所述目标图像,其中所述目标图像的中心轴为所述拼接轴线。
11.一种文本检测装置,其特征在于,包括:
图像处理单元,用于将待检测图像沿至少一个目标方向翻转获得的镜像图像与所述待检测图像拼接,获得目标图像;
文本检测单元,用于对所述目标图像进行文本检测,生成至少一个标识所述目标图像中的字符所在区域的文本框;
目标确定单元,用于从各个文本框中确定目标文本框,所述目标文本框跨越所述待检测图像和所述镜像图像之间的拼接轴线;
字符识别单元,用于根据目标文本框中各个字符与所述拼接轴线之间的位置关系,识别所述待检测图像包含的各个字符中的被裁剪字符。
12.如权利要求11所述的装置,其特征在于,所述目标确定单元具体用于:
针对任意一个文本框,若所述文本框在所述目标方向上的边界与所述拼接轴线相交,且所述文本框的其它边界与所述拼接轴线之间的距离在指定距离范围内,则确定所述文本框为目标文本框。
13.如权利要求11所述的装置,其特征在于,所述字符识别单元具体用于:
将所述目标文本框中,与拼接轴线相交的字符确定为目标字符;
从所述目标字符中确定出拼接字符,所述拼接字符由所述被裁剪字符和镜像图像中的镜像字符拼接而成;
根据确定出的拼接字符,确定所述待检测图像中的被裁剪字符。
14.一种电子设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行权利要求1~10中任一所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使所述电子设备执行权利要求1~10中任一所述方法的步骤。
CN202010227310.2A 2020-03-27 2020-03-27 一种文本检测方法、装置、电子设备和存储介质 Active CN112749690B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010227310.2A CN112749690B (zh) 2020-03-27 2020-03-27 一种文本检测方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010227310.2A CN112749690B (zh) 2020-03-27 2020-03-27 一种文本检测方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN112749690A true CN112749690A (zh) 2021-05-04
CN112749690B CN112749690B (zh) 2023-09-12

Family

ID=75645495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010227310.2A Active CN112749690B (zh) 2020-03-27 2020-03-27 一种文本检测方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112749690B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113570626A (zh) * 2021-09-27 2021-10-29 腾讯科技(深圳)有限公司 图像裁剪方法、装置、计算机设备及存储介质
WO2024067202A1 (zh) * 2022-09-29 2024-04-04 北京字跳网络技术有限公司 扩展图像的方法、装置、存储介质及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6665429B1 (en) * 2000-09-22 2003-12-16 Giles Scientific, Inc. Method and apparatus for microbiological disk recognition
US20050053282A1 (en) * 2003-09-05 2005-03-10 Japan As Represented By The President Of University Of Fukui Apparatus and method for character recognition and program thereof
WO2013097072A1 (zh) * 2011-12-26 2013-07-04 华为技术有限公司 识别视频的字符的方法和装置
CN106295645A (zh) * 2016-08-17 2017-01-04 东方网力科技股份有限公司 一种车牌字符识别方法和装置
CN106599923A (zh) * 2016-12-16 2017-04-26 广州广电运通金融电子股份有限公司 一种对印防伪特征的检测方法及装置
US20170244851A1 (en) * 2016-02-22 2017-08-24 Fuji Xerox Co., Ltd. Image processing device, image reading apparatus and non-transitory computer readable medium storing program
US10002301B1 (en) * 2017-09-19 2018-06-19 King Fahd University Of Petroleum And Minerals System, apparatus, and method for arabic handwriting recognition
CN109117848A (zh) * 2018-09-07 2019-01-01 泰康保险集团股份有限公司 一种文本行字符识别方法、装置、介质和电子设备
CN110738207A (zh) * 2019-09-10 2020-01-31 西南交通大学 一种融合文字图像中文字区域边缘信息的文字检测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6665429B1 (en) * 2000-09-22 2003-12-16 Giles Scientific, Inc. Method and apparatus for microbiological disk recognition
US20050053282A1 (en) * 2003-09-05 2005-03-10 Japan As Represented By The President Of University Of Fukui Apparatus and method for character recognition and program thereof
WO2013097072A1 (zh) * 2011-12-26 2013-07-04 华为技术有限公司 识别视频的字符的方法和装置
US20170244851A1 (en) * 2016-02-22 2017-08-24 Fuji Xerox Co., Ltd. Image processing device, image reading apparatus and non-transitory computer readable medium storing program
CN106295645A (zh) * 2016-08-17 2017-01-04 东方网力科技股份有限公司 一种车牌字符识别方法和装置
CN106599923A (zh) * 2016-12-16 2017-04-26 广州广电运通金融电子股份有限公司 一种对印防伪特征的检测方法及装置
US10002301B1 (en) * 2017-09-19 2018-06-19 King Fahd University Of Petroleum And Minerals System, apparatus, and method for arabic handwriting recognition
CN109117848A (zh) * 2018-09-07 2019-01-01 泰康保险集团股份有限公司 一种文本行字符识别方法、装置、介质和电子设备
CN110738207A (zh) * 2019-09-10 2020-01-31 西南交通大学 一种融合文字图像中文字区域边缘信息的文字检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
肖晓 等: "基于二次模版库的车牌残缺字符识别", 安徽建筑大学学报, vol. 25, no. 4, pages 33 - 37 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113570626A (zh) * 2021-09-27 2021-10-29 腾讯科技(深圳)有限公司 图像裁剪方法、装置、计算机设备及存储介质
WO2024067202A1 (zh) * 2022-09-29 2024-04-04 北京字跳网络技术有限公司 扩展图像的方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN112749690B (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
CN111563502B (zh) 图像的文本识别方法、装置、电子设备及计算机存储介质
CN111488826B (zh) 一种文本识别方法、装置、电子设备和存储介质
US9646202B2 (en) Image processing system for cluttered scenes and method of operation thereof
US8755595B1 (en) Automatic extraction of character ground truth data from images
WO2013112753A1 (en) Rules for merging blocks of connected components in natural images
CN113486828B (zh) 图像处理方法、装置、设备和存储介质
CN109934229B (zh) 图像处理方法、装置、介质和计算设备
WO2022089170A1 (zh) 字幕区域识别方法、装置、设备及存储介质
CN108805116A (zh) 图像文本检测方法及其系统
CN111612696B (zh) 图像拼接方法、装置、介质及电子设备
CN112749690B (zh) 一种文本检测方法、装置、电子设备和存储介质
CN111563505A (zh) 一种基于像素分割合并的文字检测方法及装置
CN113436222A (zh) 图像处理方法、图像处理装置、电子设备及存储介质
CN110196917B (zh) 个性化logo版式定制方法、系统和存储介质
CN111738252A (zh) 图像中的文本行检测方法、装置及计算机系统
CN107368826A (zh) 用于文本检测的方法和装置
CN113591433A (zh) 一种文本排版方法、装置、存储介质及计算机设备
CN113569613A (zh) 图像处理方法、装置、图像处理设备及存储介质
CN113570615A (zh) 一种基于深度学习的图像处理方法、电子设备及存储介质
CN113963355B (zh) Ocr文字识别方法、装置、电子设备及存储介质
JP6377214B2 (ja) テキスト検出方法および装置
CN114663418A (zh) 图像处理的方法及装置、存储介质及电子设备
Vu et al. Automatic extraction of text regions from document images by multilevel thresholding and k-means clustering
CN114494302A (zh) 图像处理方法、装置、设备及存储介质
CN109325521B (zh) 用于虚拟人物的检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40043520

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant