CN113785305B - 一种检测倾斜文字的方法、装置及设备 - Google Patents

一种检测倾斜文字的方法、装置及设备 Download PDF

Info

Publication number
CN113785305B
CN113785305B CN201980096094.8A CN201980096094A CN113785305B CN 113785305 B CN113785305 B CN 113785305B CN 201980096094 A CN201980096094 A CN 201980096094A CN 113785305 B CN113785305 B CN 113785305B
Authority
CN
China
Prior art keywords
text
detection model
image
text box
angle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980096094.8A
Other languages
English (en)
Other versions
CN113785305A (zh
Inventor
王晶
曾海华
朱声高
涂丹丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Cloud Computing Technologies Co Ltd
Original Assignee
Huawei Cloud Computing Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Cloud Computing Technologies Co Ltd filed Critical Huawei Cloud Computing Technologies Co Ltd
Publication of CN113785305A publication Critical patent/CN113785305A/zh
Application granted granted Critical
Publication of CN113785305B publication Critical patent/CN113785305B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本申请公开了一种检测倾斜文字的方法,涉及人工智能领域,具体涉及计算机视觉领域。该方法包括:文字角度检测模型获取原始图像中的文字的倾斜角度;根据获得的倾斜角度对所述原始图像进行角度矫正,获得角度矫正图像,角度矫正图像中的文字一般为水平的。随后,文本框检测模型从角度矫正图像中确认至少一个文本框。文本框检测模型获取每个文本框的位置信息,并根据所述至少一个文本框的位置信息从角度矫正图像中截取至少一个文本框子图像,每个文本框子图像中包括一系列文字;其中,所述文字角度检测模型和所述文本框检测模型采用不同的神经网络模型。该方法可以提高从图像中检测倾斜文字所在区域的准确率。

Description

一种检测倾斜文字的方法、装置及设备
技术领域
本申请涉及人工智能领域,具体涉及计算机视觉领域,尤其涉及检测倾斜文字的方法、执行该方法的装置以及计算设备。
背景技术
近年来,利用深度学习技术对图像中的文字进行检测与识别成为了研究的热点,也取得了显著的成效。文字检测与识别技术被广泛用于商业办公(广告牌读取、图像文字信息提取)、智能交通(车牌检测)、智慧医疗(单据识别归档)等各个领域。在实际应用场景中常存在需要检测和识别图像中倾斜文字的情况。
倾斜文字的检测是倾斜文字识别和结构化数据提取的先决条件。现有技术中,倾斜文字的检测方法仅在检测倾斜角度较小的文字时具有较好的准确率,而对于图像中存在的有较大倾斜角度的文字检测的准确率低。如何对倾斜文字进行检测且保证高的准确率是目前有待解决的一大问题。
发明内容
本申请提供了一种检测倾斜文字的方法,该方法利用多个神经网络模型结合进行倾斜文字检测,提高了从原始图像中检测倾斜文字的准确率。
第一方面,本申请提供了一种检测倾斜文字的方法,该方法包括:文字角度检测模型获取原始图像中的文字的倾斜角度;根据所述倾斜角度对所述原始图像进行矫正,获得角度矫正图像;文本框检测模型从所述角度矫正图像中确认至少一个文本框,每个文本框指示所述角度矫正图像中的文字所在的区域;所述文本框检测模型获取所述至少一个文本框的位置信息;根据所述至少一个文本框的位置信息从所述角度矫正图像中获取至少一个文本框子图像;其中,所述文字角度检测模型和所述文本框检测模型采用不同的神经网络模型。该方法通过结合文字角度检测模型和文本框检测模型,首先获取原始图像中的文字的倾斜角度,进而对角度矫正后的角度矫正图像中的文本框进行检测,将倾斜文字检测问题转化成角度检测与水平文字检测两个问题,通过采用不同的神经网络模型分别解决两个问题,大大提高了检测倾斜文字的准确率,且可以保证在原始图像中的文字的倾斜角度较大的情况下,倾斜文字检测依然达到高的准确率。
在第一方面的一种可能实现中,所述文字角度检测模型采用的神经网络模型和所述文本框检测模型采用的神经网络模型根据不同的图像集进行训练;用于训练所述文字角度检测模型的图像集中包含的图像带有的标注和用于训练所述文本框检测模型的图像集中包含的图像带有的标注不同。
进一步地,文字角度检测模型采用的神经网络模型与文本框检测模型采用的神经网络模型的模型结构中的参数和计算公式也不同。文字角度检测模型和文本框检测模型采用不同的神经网络模型且利用不同的图像集对两个模型进行训练,有针对性地解决不同的问题,使得检测倾斜文字的准确率整体提高。
在第一方面的一种可能实现中,检测倾斜文字的方法还包括:文字翻转检测模型根据每个文本框子图像获取所述每个文本框子图像的文字翻转信息;根据所述每个文本框子图像的文字翻转信息获取每个文字子图像,所述文字子图像中的文字的方向向上。通过引入文字翻转检测模型对已获得的文本框子图像进行文字翻转检测,避免了获得的文字子图像中的文字倒转朝下的情况,不仅提高了检测倾斜文字的准确率,也保证了后续文字识别的准确率。
在第一方面的一种可能实现中,所述文字翻转检测模型采用的神经网络模型和所述文字角度检测模型采用的神经网络模型不同。
在第一方面的一种可能实现中,所述文字翻转检测模型采用的神经网络模型和所述文字角度检测模型采用的神经网络模型根据不同的图像集进行训练;用于训练所述文字翻转检测模型的图像集中包含的图像带有的标注和用于训练所述文字角度检测模型的图像集中包含的图像集带有的标注不同。
文字翻转检测模型和文字角度检测模型采用不同的神经网络模型或利用不同的图像集对两个模型进行训练,有针对性地解决不同的问题,保证每个神经网络模型的准确率高,以使得整体倾斜文字检测的准确率高,且该方法只需采用轻量级神经网络模型,提高了检测倾斜文字的效率,减少了存储和计算资源的占用。
在第一方面的一种可能实现中,所述文字翻转检测模型采用的神经网络模型和所述文本框检测模型采用的神经网络模型不同。
在第一方面的一种可能实现中,所述文字翻转检测模型采用的神经网络模型和所述文本框检测模型采用的神经网络模型根据不同的图像集进行训练;用于训练所述文字翻转检测模型的图像集中包含的图像带有的标注和用于训练所述文本框检测模型的图像集中包含的图像集带有的标注不同。
文字翻转检测模型和文本框检测模型采用不同的神经网络模型或利用不同的图像集对两个模型进行训练,有针对性地解决不同的问题,保证每个神经网络模型的准确率高,以使得整体倾斜文字检测的准确率高,且该方法只需采用轻量级神经网络模型,提高了检测倾斜文字的效率,减少了存储和计算资源的占用。
在第一方面的一种可能实现中,所述文字角度检测模型获取原始图像中的文字的倾斜角度包括:所述文字角度检测模型对所述原始图像进行特征提取和特征融合获得融合特征张量,根据所述融合特征张量输出多个预测文本框的倾斜角度;根据所述多个预测文本框的倾斜角度获取所述原始图像的文字的倾斜角度。该方法在文字角度检测模型输出多个预测文本框的倾斜角度之后,根据文字角度检测模型输出的预测文本框的倾斜角度获得文字的倾斜角度,将文字角度检测模型输出的结果进一步精确化,获得的文字的倾斜角度准确率更高,且获得文字的倾斜角度的方法分两步进行,降低了文字角度检测模型的计算复杂度和内存占用。
第二方面,本申请提供了一种倾斜文字检测装置,该装置包括:文字角度检测模型,用于获取原始图像中的文字的倾斜角度;文字角度矫正模块,用于根据所述倾斜角度对所述原始图像进行矫正,获得角度矫正图像;文本框检测模型,用于从所述角度矫正图像中确认至少一个文本框,每个文本框指示所述角度矫正图像中的文字所在的区域;还用于获取所述至少一个文本框的位置信息;文本框分割模块,用于根据所述至少一个文本框的位置信息从所述角度矫正图像中获取至少一个文本框子图像;其中,所述文字角度检测模型和所述文本框检测模型采用不同的神经网络模型。
在第二方面的一种可能实现中,所述文字角度检测模型采用的神经网络模型和所述文本框检测模型采用的神经网络模型根据不同的图像集训练获得;用于训练所述文字角度检测模型的图像集中包含的图像带有的标注和用于训练所述文本框检测模型的图像集中包含的图像带有的标注不同。
在第二方面的一种可能实现中,所述装置还包括:文字翻转检测模型,用于根据每个文本框子图像获取所述每个文本框子图像的文字翻转信息;文字翻转矫正模块,用于根据每个文本框子图像的文字翻转信息获取每个文字子图像,所述文字子图像中的文字的方向向上。
在第二方面的一种可能实现中,所述文字翻转检测模型采用的神经网络模型和所述文字角度检测模型采用的神经网络模型不同。
在第二方面的一种可能实现中,所述文字翻转检测模型采用的神经网络模型和所述文字角度检测模型采用的神经网络模型根据不同的图像集训练获得;用于训练所述文字翻转检测模型的图像集中包含的图像带有的标注和用于训练所述文字角度检测模型的图像集中包含的图像集带有的标注不同。
在第二方面的一种可能实现中,所述文字翻转检测模型采用的神经网络模型和所述文本框检测模型采用的神经网络模型不同。
在第二方面的一种可能实现中,所述文字翻转检测模型采用的神经网络模型和所述文本框检测模型采用的神经网络模型根据不同的图像集训练获得;用于训练所述文字翻转检测模型的图像集中包含的图像带有的标注和用于训练所述文本框检测模型的图像集中包含的图像集带有的标注不同。
在第二方面的一种可能实现中,所述装置还包括:文字角度确定模块;所述文字角度检测模型,还用于对所述原始图像进行特征提取和特征融合获得融合特征张量,根据所述融合特征张量输出多个预测文本框的倾斜角度;所述文字角度确定模块用于根据所述文字角度检测模型输出的多个预测文本框的倾斜角度获取所述原始图像的文字的倾斜角度。
第三方面,本申请提供了一种检测倾斜文字的方法,该方法包括:文字角度检测模型获取原始图像中的多组文字的倾斜角度;根据所述多组文字的倾斜角度对所述原始图像进行角度矫正,获得多个角度矫正图像,其中,原始图像中的每组文字的倾斜角度与每个角度矫正图像对应;文本框检测模型为所述每个角度矫正图像确认至少一个文本框,每个文本框指示所述每个角度矫正图像中的文字所在的区域;所述文本框检测模型获取所述至少一个文本框的位置信息;根据所述至少一个文本框的位置信息从所述每个角度矫正图像中获取至少一个文本框子图像;其中,所述文字角度检测模型和所述文本框检测模型采用不同的神经网络模型。该方法在原始图像中存在不同倾斜角度的文字的情况下可以根据检测到的不同的文字的倾斜角度对原始图像进行矫正,获得多组不同的文字的倾斜角度对应的不同的角度矫正图像。这种倾斜文字检测解决了同一原始图像中存在多种不同倾斜角度的文字时文字检测不全面的情况,保证了每个倾斜角度的文字检测的准确率。
在第三方面的一种可能实现中,所述方法还包括:文字翻转检测模型根据每个文本框子图像获取所述每个文本框子图像的文字翻转信息;根据所述每个文本框子图像的文字翻转信息获取每个文字子图像,所述文字子图像中的文字的方向向上。
在第三方面的一种可能实现中,所述文本框检测模型为所述每个角度矫正图像确认至少一个文本框包括:文本框检测模型为所述每个角度矫正图像确认至少一个读写方向为水平方向的文字所在的区域的文本框。
在第三方面的一种可能实现中,所述文字角度检测模型采用的神经网络模型和所述文本框检测模型采用的神经网络模型根据不同的图像集进行训练;用于训练所述文字角度检测模型的图像集中包含的图像带有的标注和用于训练所述文本框检测模型的图像集中包含的图像带有的标注不同。
在第三方面的一种可能实现中,所述文字翻转检测模型采用的神经网络模型和所述文字角度检测模型采用的神经网络模型根据不同的图像集进行训练;用于训练所述文字翻转检测模型的图像集中包含的图像带有的标注和用于训练所述文字角度检测模型的图像集中包含的图像集带有的标注不同。
在第三方面的一种可能实现中,所述文字翻转检测模型采用的神经网络模型和所述文本框检测模型采用的神经网络模型根据不同的图像集进行训练;用于训练所述文字翻转检测模型的图像集中包含的图像带有的标注和用于训练所述文本框检测模型的图像集中包含的图像集带有的标注不同。
第四方面,本申请提供了一种倾斜文字检测装置,该装置包括:文字角度检测模型,用于获取原始图像中的多组文字的倾斜角度;文字角度矫正模块,用于根据所述多组文字的倾斜角度对所述原始图像进行角度矫正,获得多个角度矫正图像,其中,原始图像中每组文字的倾斜角度与每个角度矫正图像对应;文本框检测模型,用于为所述每个角度矫正图像确认至少一个文本框,每个文本框指示所述每个角度矫正图像中的文字所在的区域,还用于获取所述至少一个文本框的位置信息;文本框分割模块,用于根据所述至少一个文本框的位置信息从所述每个角度矫正图像中获取至少一个文本框子图像;其中,所述文字角度检测模型和所述文本框检测模型采用不同的神经网络模型。
在第四方面的一种可能实现中,所述装置还包括:文字翻转检测模型,用于根据每个文本框子图像获取所述每个文本框子图像的文字翻转信息;文字翻转矫正模块,用于根据所述每个文本框子图像的文字翻转信息获取每个文字子图像,所述文字子图像中的文字的方向向上。
在第四方面的一种可能实现中,所述文本框检测模型还用于为所述每个角度矫正图像确认至少一个读写方向为水平方向的文字所在的区域的文本框。
在第四方面的一种可能实现中,所述文字角度检测模型采用的神经网络模型和所述文本框检测模型采用的神经网络模型根据不同的图像集训练获得;用于训练所述文字角度检测模型的图像集中包含的图像带有的标注和用于训练所述文本框检测模型的图像集中包含的图像带有的标注不同。
在第四方面的一种可能实现中,所述所述文字翻转检测模型采用的神经网络模型和所述文字角度检测模型采用的神经网络模型根据不同的图像集训练获得;用于训练所述文字翻转检测模型的图像集中包含的图像带有的标注和用于训练所述文字角度检测模型的图像集中包含的图像集带有的标注不同。
在第四方面的一种可能实现中,所述文字翻转检测模型采用的神经网络模型和所述文本框检测模型采用的神经网络模型根据不同的图像集训练获得;用于训练所述文字翻转检测模型的图像集中包含的图像带有的标注和用于训练所述文本框检测模型的图像集中包含的图像集带有的标注不同。
第五方面,本申请提供了一种检测倾斜文字的方法,该方法包括:文字角度检测模型获取原始图像中至少一个预测文本框的位置信息和文字的倾斜角度;其中,每个预测文本框指示所述原始图像中的文字所在的区域;根据所述至少一个预测文本框的位置信息和所述文字的倾斜角度获取至少一个文本框子图像;文字翻转检测模型根据每个文本框子图像获取所述每个文本框子图像的文字翻转信息;根据所述每个文本框子图像的文字翻转信息获取每个文字子图像,所述文字子图像中的文字的方向向上,其中,所述文字角度检测模型和所述文字翻转检测模型采用不同的神经网络模型。该方法利用文字角度检测模型获取了文本框子图像,还进一步地利用文字翻转检测模型对文本框子图像进行文字翻转检测,避免了获得的文字子图像中的文字倒转朝下的情况,不仅提高了检测倾斜文字的准确率,也保证了后续文字识别的准确率。
在第五方面的一种可能实现中,所述文字角度检测模型采用的神经网络模型和所述文字翻转检测模型采用的神经网络模型根据不同的图像集进行训练;用于训练所述文字角度检测模型的图像集中包含的图像带有的标注和用于训练所述文字翻转检测模型的图像集中包含的图像带有的标注不同。
在第五方面的一种可能实现中,所述根据所述至少一个预测文本框的位置信息和所述文字的倾斜角度获取至少一个文本框子图像包括:根据所述至少一个预测文本框的位置信息获取至少一个预测文本框子图像;根据所述文字的倾斜角度对所述至少一个预测文本框子图像进行角度矫正,获得至少一个文本框子图像。
第六方面,本申请提供了一种倾斜文字检测装置,该装置包括:文字角度检测模型,用于获取原始图像中至少一个预测文本框的位置信息和文字的倾斜角度;其中,每个预测文本框指示所述原始图像中的文字所在的区域;文本框分割模块,用于根据所述至少一个预测文本框的位置信息和所述文字的倾斜角度获取至少一个文本框子图像;文字翻转检测模型,用于根据每个文本框子图像获取所述每个文本框子图像的文字翻转信息;文字翻转矫正模块,用于根据所述每个文本框子图像的文字翻转信息获取每个文字子图像,所述文字子图像中的文字的方向向上,其中,所述文字角度检测模型和所述文字翻转检测模型采用不同的神经网络模型。
在第六方面的一种可能实现中,所述文字角度检测模型采用的神经网络模型和所述文字翻转检测模型采用的神经网络模型根据不同的图像集训练获得;用于训练所述文字角度检测模型的图像集中包含的图像带有的标注和用于训练所述文字翻转检测模型的图像集中包含的图像带有的标注不同。
在第六方面的一种可能实现中,所述文本框分割模块还用于根据所述至少一个预测文本框的位置信息获取至少一个预测文本框子图像;所述装置还包括:文本框矫正模块,用于根据所述文字的倾斜角度对所述至少一个预测文本框子图像进行角度矫正,获得至少一个文本框子图像。
第七方面,本申请提供了一种计算设备系统,该计算设备系统包括至少一个计算设备。每个计算设备包括存储器和处理器。至少一个计算设备的处理器用于访问所述存储器中的代码以执行第一方面或第一方面的任意一种可能的实现方式提供的方法。
第八方面,本申请还提供了一种计算设备系统,该计算设备系统包括至少一个计算设备。每个计算设备包括存储器和处理器。至少一个计算设备的处理器用于访问所述存储器中的代码以执行第三方面或第三方面的任意一种可能的实现方式提供的方法。
第九方面,本申请还提供了一种计算设备系统,该计算设备系统包括至少一个计算设备。每个计算设备包括存储器和处理器。至少一个计算设备的处理器用于访问所述存储器中的代码以执行第五方面或第五方面的任意一种可能的实现方式提供的方法。
第十方面,本申请提供了一种非瞬态的可读存储介质,所述非瞬态的可读存储介质被计算设备执行时,所述计算设备执行前述第一方面或第一方面的任意可能的实现方式中提供的方法。该存储介质中存储了程序。该存储介质包括但不限于易失性存储器,例如随机访问存储器,非易失性存储器,例如快闪存储器、硬盘(英文:hard disk drive,缩写:HDD)、固态硬盘(英文:solid state drive,缩写:SSD)。
第十一方面,本申请提供了一种非瞬态的可读存储介质,所述非瞬态的可读存储介质被计算设备执行时,所述计算设备执行前述第三方面或第三方面的任意可能的实现方式中提供的方法。该存储介质中存储了程序。该存储介质包括但不限于易失性存储器,例如随机访问存储器,非易失性存储器,例如快闪存储器、HDD、SSD。
第十二方面,本申请提供了一种非瞬态的可读存储介质,所述非瞬态的可读存储介质被计算设备执行时,所述计算设备执行前述第五方面或第五方面的任意可能的实现方式中提供的方法。该存储介质中存储了程序。该存储介质包括但不限于易失性存储器,例如随机访问存储器,非易失性存储器,例如快闪存储器、HDD、SSD。
第十三方面,本申请提供了一种计算设备程序产品,所述计算设备程序产品包括计算机指令,在被计算设备执行时,所述计算设备执行前述第一方面或第一方面的任意可能的实现方式中提供的方法。该计算机程序产品可以为一个软件安装包,在需要使用前述第一方面或第一方面的任意可能的实现方式中提供的方法的情况下,可以下载该计算机程序产品并在计算设备上执行该计算机程序产品。
第十四方面,本申请提供了一种计算设备程序产品,所述计算设备程序产品包括计算机指令,在被计算设备执行时,所述计算设备执行前述第三方面或第三方面的任意可能的实现方式中提供的方法。该计算机程序产品可以为一个软件安装包,在需要使用前述第三方面或第三方面的任意可能的实现方式中提供的方法的情况下,可以下载该计算机程序产品并在计算设备上执行该计算机程序产品。
第十五方面,本申请提供了一种计算设备程序产品,所述计算设备程序产品包括计算机指令,在被计算设备执行时,所述计算设备执行前述第五方面或第五方面的任意可能的实现方式中提供的方法。该计算机程序产品可以为一个软件安装包,在需要使用前述第五方面或第五方面的任意可能的实现方式中提供的方法的情况下,可以下载该计算机程序产品并在计算设备上执行该计算机程序产品。
附图说明
为了更清楚地说明本申请实施例的技术方法,下面将对实施例中所需使用的附图作以简单地介绍。
图1为本申请实施例提供的一种系统架构示意图;
图2为本申请实施例提供的另一种系统架构示意图;
图3为本申请实施例提供的一种原始图像、角度矫正图像、文本框子图像和文字子图像的关系示意图;
图4为本申请实施例提供的原始图像在倾斜文字检测装置100的数据流向图;
图5为本申请实施例提供的文字角度检测模型101的结构示意图;
图6为本申请实施例提供的特征合并子网络的结构示意图;
图7为本申请实施例提供的文本框检测模型104的结构示意图;
图8为本申请实施例提供的检测倾斜文字的方法流程示意图;
图9为本申请实施例提供的一种倾斜文字检测装置300的结构示意图;
图10为本申请实施例提供的一种计算设备400的结构示意图;
图11为本申请实施例提供的一种计算设备系统的结构示意图。
具体实施方式
下面将结合本申请中的附图,对本申请提供的实施例中的方案进行描述。
本申请提供的检测倾斜文字的方法由倾斜文字检测装置执行,如图1所示,该装置可运行在云计算设备系统,具体为运行在云计算设备系统中的至少一个计算设备(例如:云数据中心的至少一个服务器),该装置也可运行在边缘计算设备系统,具体为运行在边缘计算设备系统中的至少一个计算设备(例如:边缘服务器、台式电脑),该装置还可以运行在各种终端计算设备上,例如:终端服务器、智能手机、笔记本电脑、平板电脑、个人台式电脑、智能相机等。
云计算设备系统、边缘计算设备系统和终端计算设备三者之间可以互相建立通信连接,本申请提供的倾斜文字检测装置包括多个部分,如图2所示,该装置的各部分可以分别运行在前述三个系统(云计算设备系统、边缘计算设备系统、终端计算设备),或者运行在前述三个系统中的任意两个,例如:该装置的几部分运行在云计算设备系统,其他部分运行在终端计算设备上,各部分顺序运行,共同完成对倾斜文字的检测。
本申请中,检测倾斜文字,即对包含倾斜文字的原始图像进行处理,检测所述原始图像中倾斜文字所在的区域,获取包含原始图像中的倾斜的文字的子图像。所述倾斜文字指示文字的读写方向与原始图像的水平边框存在倾斜角度的文字,倾斜文字的倾斜角度为原始图像的水平边框与文字读写方向的逆时针夹角。值得注意的是,本申请中,文字方向向上指示文字的读写方向为水平且文字正常可读,文字方向向下指示文字的读写方向为水平且文字翻转。本申请提供一种检测倾斜文字的方法,首先将存在倾斜文字的原始图像进行倾斜角度矫正,获得角度矫正图像,进而从角度矫正图像中获取文本框子图像。
可选的,本申请提供的方法还可以进一步地检测文本框子图像的文字是否发生翻转,对翻转的文本框子图像进行翻转矫正,获得文字读写方向水平的文字子图像。通过本申请提供的方法,获得的文本框子图像或文字子图像可进一步用于文字识别。
执行本申请提供的检测倾斜文字的方法需要使用神经网络模型,所述神经网络模型是一种模仿生物神经网络(动物的中枢神经系统)的结构和功能的数学计算模型,神经网络模型包括多层,每层包括参数和计算公式,根据计算公式的不同或功能的不同,神经网络模型中不同的层有不同的名称,例如:对图像进行卷积计算的层称为卷积层,所述卷积层常用于对原始图像进行特征提取。目前,业界已存在许多已经训练完成且具有较高准确率的神经网络模型,这些神经网络模型可被直接用于单独完成一项任务或与其他神经网络模型(或其他功能模块)组合完成一项任务,这些神经网络模型也可以被特定的图像集重新进行训练用于单独完成一项任务或与其他神经网络模型(或其他功能模块)组合完成一项任务。
本申请中执行检测倾斜文字的方法需要用到文字角度检测模型、文本框检测模型、文字翻转检测模型(可选的),前述三个模型都采用神经网络模型。在被用于检测倾斜文字之前,可由模型训练装置执行对神经网络模型的训练。每个神经网络模型独立训练。在每个神经网络模型的训练过程中,预先准备的图像集中的带标注的图像依次作为模型的输入,使模型不断学习带标注的图像的规律和特征直至收敛。前述三个模型采用的神经网络模型分别采用不同的图像集进行训练(即每个图像集中的图像全部或部分不同),不同图像集中的图像带有不同的标注(例如:用于训练文字角度检测模型的图像集中的图像的标注为方向倾斜的文本框,用于训练文字翻转检测模型的图像集中的图像的标注为文字方向向上或文字方向向下,用于训练文本框检测模型的图像集中的图像的标注为方向水平的文本框),所述图像带有的标注指示该图像中包含的标记或该图像属于的分类。所述模型训练装置和前述倾斜文字检测装置一样,可以独立运行在云计算设备系统、边缘计算设备系统或者终端计算设备上,该模型训练装置的各部分也可以分布式地运行在前述三个系统,或者运行在前述三个系统中的任意两个系统。
可选的,已训练完成的文字角度检测模型、文本框检测模型和文字翻转检测模型的全部或者任意一个或者任意两个模型也可不由模型训练装置执行模型训练方法获得,而是从业界已训练完成的开源模型库中获得或从第三方购买获得。
值得注意的是,前述文字角度检测模型、文本框检测模型和文字翻转检测模型分别采用不同的神经网络模型,两个神经网络模型的不同可以是神经网络模型结构相同(即:模型的层数和每一层的计算公式相同)、用于模型训练的图像集不同,也可以是神经网络模型结构不同(即:模型的层数和每一层的计算公式不同)、用于模型训练的图像集相同,还可以是神经网络模型结构和用于模型训练的图像集都不同。
在本申请中,如无特殊说明,下文提到的用于检测倾斜文字的文字角度检测模型、文本框检测模型和文字翻转检测模型均采用已训练完成的神经网络模型,且本申请对前述已训练完成的神经网络模型的获得方式不作限定。
图3为本申请实施例提供的一种原始图像、角度矫正图像、文本框子图像和文字子图像的关系示意图。根据文字的倾斜角度的不同,原始图像中可以包括多组文字,其中,同一组文字有着相同或相似的倾斜角度。在对原始图像进行倾斜文字检测的过程中,文字角度检测模型读取原始图像对原始图像中的包含文字的区域进行预测,生成预测文本框,且对预测文本框的倾斜角度进行计算,获得每个预测文本框的倾斜角度;根据文字角度模型输出的预测文本框的倾斜角度获得原始图像中多组文字的对应的多个倾斜角度,根据每个倾斜角度对原始图像进行矫正,获得矫正后的多个角度矫正图像,每个角度矫正图像中有一组文字被矫正为水平(或近似水平);对获得的每一个角度矫正图像进一步进行文本框检测和文本框分割,使角度矫正图像中被矫正为水平(或近似水平)的文字的区域被分割成为文本框子图像,每一个文本框子图像为一个独立的图像;对获得的每个文本框子图像进一步进行文字翻转检测和矫正,当检测到文本框子图像中的文字方向向下时,对该文本框子图像进行矫正,当检测到文本框子图像中的文字方向向上时,无需对该文本框子图像进行翻转矫正,最后获得文字子图像。值得注意的是,本申请提供的方法获得的文本框子图像或文字子图像均可进一步由文字识别模型(或模块)进行文字识别。
图4介绍了原始图像在倾斜文字检测装置100内的数据流向图。倾斜文字检测装置100用于执行对原始图像的倾斜文字检测,包括以下任意部分或全部模块(模型):文字角度检测模型101、文本框检测模型104和文字翻转检测模型106以及文字角度确定模块102、文字角度矫正模块103、文本框分割模块105和文字翻转矫正模块107。
文字角度检测模型101用于根据输入的原始图像进行倾斜的文本框和倾斜文本框倾斜角度的预测,输出原始图像中多个预测文本框的倾斜角度;文字角度确定模块102用于对前述预测文本框的倾斜角度进行计算,获得文字的倾斜角度;文字角度矫正模块103用于根据前述文字的倾斜角度对原始图像进行角度矫正,获得角度矫正图像;前述角度矫正图像作为文本框检测模型104的输入,文本框检测模型104用于检测该角度矫正图像中的方向为水平的文本框,输出文本框的位置信息;文本框分割模块105用于根据文本框检测模型输出的文本框的位置信息从角度矫正图像中分割出文本框中的内容,形成文本框子图像,输出文本框子图像。
可选的,前述获得的文本框子图像还可被输入至文字翻转检测模型106,由文字翻转检测模型106对文本框子图像中的文字是否发生翻转进行检测,输出文字翻转信息;文字翻转矫正模块107用于根据前述文字翻转信息判断文本框子图像中的文字是否发生翻转,对发生文字翻转的文本框子图像进行翻转矫正后输出,对文字未发生翻转的文本框子图像直接输出,文字翻转矫正模块107的输出称为文字子图像。
值得注意的是,前述倾斜文字检测装置100执行完检测倾斜文字的方法后,倾斜文字检测装置100输出的文本框子图像或文字子图像可作为其他装置或模型(模块)的输入。由于倾斜文字检测装置100对倾斜文字的检测和矫正,其输出的文字子图像中文字读写方向为水平方向且文字朝上的准确率更高,这些文字子图像在被用于后续文字识别时可使用水平文字识别装置或模块(模型)进行识别,使文字识别的效率和准确率更高。具体地,该倾斜文字检测装置100与水平文字识别装置或模块(模型)进行结合,即倾斜文字检测装置100输出的文字子图像作为水平文字识别装置或模块(模型)的输入图像,由水平文字识别装置或模块(模型)完成文字的识别,整体而言,倾斜文字检测装置与水平文字识别装置或模块(模型)可作为一个整体对图像中的倾斜文字进行识别,且保证较高的效率和准确率。
本申请对文字角度检测模型101采用的神经网络模型的具体结构不作限定,业界已有的具有文本框的倾斜角度检测功能的神经网络模型均可作为本申请中的文字角度检测模型101,例如:高效准确的场景文本检测(efficient and accurate scene textdetector,EAST)模型,线段连接(segment link,SegLink)模型、改进的文本框(advancedtext boxes,Textboxes++)模型等。
图5描述了本申请实施例提供的文字角度检测模型101的结构示意图。如图5所示,本申请实施例提供的文字角度检测模型101主要可分为三大部分:特征提取网络1011、特征融合网络1012、输出网络1013。
值得注意的是,本申请对特征提取网络1011的具体结构也不作限定,特征提取网络1011的结构可以是业界已有的神经网络模型,例如:Pvanet、VGG16、Resnet等。本申请优选的实施例中EAST模型使用的特征提取网络的结构是Pvanet模型。
特征提取网络1011包括至少一个卷积层,用于对需要进行文字检测与识别的原始图像进行特征提取,每个卷积层中有至少一个卷积核,每个卷积核的大小可以相同也可以不同(例如Pvanet模型的第一层卷积层中有16个大小均为7*7的卷积核),原始图像(或特征张量)输入至卷积层中与各卷积核进行卷积操作后,该卷积层输出一个特征张量,所述特征张量是一个三维的数组,包括多个数值,例如:尺度为W*H*L的特征张量(其中,W表示特征张量的宽度,H表示特征张量的高度,L表示特征张量的通道数,W、H和L均为大于0的自然数)包括W*H*L个数值,卷积层中包括的卷积核的个数决定了该卷积层输出的特征张量的通道数,例如:尺度为W*H*L的特征张量(其中,W表示特征张量的宽度,H表示特征张量的高度,L表示特征张量的通道数,W、H和L均为大于0的自然数),输入至包含J个尺寸为1*1卷积核的卷积层后,与卷积层中J个1*1的卷积核进行卷积,该卷积层输出的特征张量尺度为W*H*J(J为大于0的自然数)。不同卷积层中的卷积核的大小和个数可以相同也可以不相同,每个卷积层输出的特征张量的尺度由输入至该卷积层的原始图像(或特征张量)和该卷积层中的卷积核的大小和个数以及卷积计算的方式共同决定。
特征提取网络1011用于对输入的原始图像进行特征分析和提取,特征提取网络1011中的每个卷积层输出一个特征张量,从输入方向到输出方向,每个卷积层(除第一个卷积层)依次以上一个卷积层输出的特征张量作为输入值(第一个卷积层以原始图像作为输入值)。在Pvanet模型中包含5个卷积层,原始图像输入至第一层卷积层,第一层卷积层输出的特征张量的尺寸大小是原始图像的1/2倍,第一层卷积层输出的特征张量作为第二层卷积层的输入值输入至第二层卷积层,第二层卷积层输出的特征张量是第一层卷积层输出的特征张量的1/2倍(即是原始图像的1/4倍),以此类推,第五层卷积层输出的特征张量是原始图像的1/32倍。因此,特征提取网络中的每一层卷积层输出的特征张量具有不同的尺度,可从不同尺度表示原始图像的特征。
特征融合网络1012将特征提取网络1011中N个卷积层输出的特征张量进行融合(其中,N个卷积层为特征提取网络1011中第M-N+1个卷积层至第M个卷积层,特征提取网络1011中共有M个卷积层,N小于或等于M,且N和M均为大于0的自然数),特征融合网络1012输出融合特征张量。具体地,特征融合网络1012中包含N-1个特征合并子网络和1个特征融合层,所述特征融合层可以是卷积层,特征提取网络1011中第M个卷积层输出的特征张量f1和第M-1个卷积层输出的特征张量f2作为第1个特征合并子网络的输入值,经第1个特征合并子网络进行合并,第1个特征合并子网络输出的合并特征张量g1与特征提取网络1011的第M-2个卷积层输出的特征张量f3继续作为第2个特征合并子网络的输入值,以此类推,第i个特征合并子网络接收第i-1个特征合并子网络的输出的合并特征张量gi-1作为一个输入值,且接收特征提取网络1011的第M-i个卷积层输出的特征张量fi作为另一个输入值,输出合并特征张量gi,直到第N-1个特征合并子网络输出的合并特征张量gN-1作为特征融合网络1012中的特征融合层的输入,由特征融合层输出融合特征张量,该融合特征张量为特征融合网络1012的输出值,被用于作为输出网络1013的输入值。
具体地,特征合并子网络的结构示意图如图6所示,所述特征合并子网络包括上采用层、合并层和至少一个卷积层。特征融合网络1012中的第i个特征合并子网络接收第i-1个特征合并子网络输出的合并特征张量gi-1,合并特征张量gi-1输入至上采样层,由上采样层对合并特征张量gi-1进行上采样,上采样层输出上采样后的合并特征张量,该上采样后的合并特征张量的尺寸相比于合并特征张量gi-1发生了变化,其尺寸与特征提取网络1011第M-i层输出的特征张量fi+1的尺寸一致,该上采样后的合并特征张量与特征张量fi+1共同作为第i个合并特征子网络中的合并层的输入值,合并层对两个输入值进行合并,输出一个前向合并特征张量,该前向合并特征张量继续与卷积层中的卷积核进行卷积,卷积层的输出值可继续作为下一个卷积层的输入,直到特征合并子网络中最后一层卷积层输出合并特征张量gi,例如:该特征合并子网络可以有两个卷积层,一个为包含32个大小为1*1卷积核的卷积层,另一个为包含32个大小为3*3卷积核的卷积层,卷积层对前向合并特征张量进一步进行特征选择,使输出的合并特征张量gi更能精细地表现特征,该合并特征张量gi即为第i个特征合并子网络的输出值。
特征融合网络1012输出的融合特征张量被输入至输出网络1013中,输出网络1013用于输出文字角度检测模型101对原始图像进行预测得到的每个预测文本框的置信度和每个预测文本框的倾斜角度。具体地,输出网络1013中包括一个卷积层(或全连接层),融合特征张量输入至该卷积层,该卷积层通过卷积计算输出预测到的原始图像中每个预测文本框的置信度。输出网络1013中还包括一个卷积层(或全连接层),融合特征张量输入至该卷积层,该卷积层通过卷积计算输出每个预测文本框的倾斜角度,所述预测文本框的倾斜角度与预测文本框的置信度一一对应。预测文本框的倾斜角度为文字角度检测模型101的输出值。
所述预测文本框的置信度表示在融合特征张量中的某特征点上预测的文本框是原始图像中的文字区域的文本框的可信度,预测文本框的置信度的取值区间为[0,1]。
值得注意的是,所述预测文本框的倾斜角度是原始图像的水平边框与该预测的文本框中的文字的读写方向在逆时针方向的夹角的角度。
前述文字角度检测模型101在模型训练阶段,首先要进行初始化,为文字角度检测模型101中各部分的各层的参数设定初始值。训练时,输入的原始图像是预先准备的图像集中的带文本框标注的图像,文字角度检测模型101对带标注图像进行特征提取、特征融合和文本框预测,输出网络中输出的预测文本框的倾斜角度与真实文本框的倾斜角度进行比较来计算损失函数。根据计算得到的损失函数对文字角度检测模型101中各部分的各层的参数进行更新(即反向激励),参数更新后的文字角度检测模型101继续对后续输入的带标注图像进行预测、比较和计算损失函数,根据损失函数更新该模型中的参数。如此反复,直到输入一张带标注图像后计算得到的损失函数小于预设定的阈值或者图像集中所有带标注图像全部被用于训练,则结束训练,该文字角度检测模型101即为训练完成的模型。训练完成的文字角度检测模型101可被用于检测倾斜文字。
在检测倾斜文字的过程中,根据文字角度检测模型101输出的预测文本框的倾斜角度,文字角度确定模块102和文字角度矫正模块103可被用于获得原始图像中文字的倾斜角度并将原始图像进行角度矫正获得角度矫正图像,具体的方法在后续检测倾斜文字的方法流程中详细描述。
训练完成的文本框检测模型104可用于对输入的角度矫正图像进行文本框检测。本申请中文本框检测模型104的基本结构如图7所示。特征提取网络1041包括至少一个卷积层,角度矫正图像作为特征提取网络1041的输入值,特征提取网络1041用于对角度矫正图像进行特征提取,输出特征张量。文本框计算网络1042用于读取特征提取网络1041输出的特征张量,且对该特征张量中每一个数值进行文本框预测,输出预测文本框的置信度和预测文本框的位置信息。后处理网络1043可以被用于接收预测文本框的置信度和预测文本框的位置信息,且对预测文本框的置信度与预设定的阈值进行比较,将置信度高于预设定的阈值的预测文本框进一步地利用后处理算法(例如:非极大抑制算法)进行合并和选择,获得最终确定的文本框,输出文本框的位置信息。
值得注意的是,文本框检测模型104采用的神经网络模型根据带有水平方向的文本框标注的图像集进行训练,因此文本框检测模型104用于检测角度矫正图像中读写方向为水平的文字所在的区域,通过预设定的阈值与预测文本框置信度的比较可以过滤在角度矫正图像中存在的倾斜文字对应的预测文本框,即,当角度矫正图像中既存在倾斜文字又存在水平文字时,文本框检测模型104仅检测水平文字对应的文本框。
值得注意的是,本申请对文本框检测模型104的具体结构不作限定,业界已存在的对于检测文本框有较好的准确率的神经网络模型,例如:文本框(Text box)模型、单发多盒检测器(single shot multibox detector)模型等,以及未来可用于检测文本框的神经网络模型均可作为本申请中的文本框检测模型104。
文本框分割模块105可被用于通过文本框检测模型104输出的文本框的位置信息将角度矫正图像中对应的文本框的内容分割为文本框子图像。
文字翻转检测模型106用于检测文本框子图像是否发生文字翻转。文字翻转检测模型106可以是一个二分类的卷积神经网络模型,模型包括至少一个用于特征提取的卷积层和一个用于分类的卷积层或全连接层。前述用于分类的卷积层或全连接层计算文本框子图像发生翻转的概率值和文本框子图像未发生翻转的概率值(或得分),且比较两个概率值的大小,将文本框子图像分为概率值较大的一类中。文字翻转检测模型106输出文本框子图像的翻转结果,其中文本框子图像的翻转结果为用于模型训练的图像集中的文字图像带有的标注中的一种。在模型训练阶段,用于模型训练的图像集包含两类带标注的文字图像,一类为带有发生翻转标注的文字图像,这一类文字图像中的文字均为顺时针或逆时针翻转180度后的文字;另一类为带有未发生翻转标注的文字图像,这一类文字图像中的文字均为方向向上的文字。
应理解,图像集中两类带标注的文字图像所带的标注可自行定义,例如:图像中的文字为顺时针或逆时针翻转180度后的文字的一类图像被标注为“1”,图像中的文字方向向上的文字的一类图像被标注为“0”,则在模型训练过程中,文字翻转检测模型106学习到带有“1”标注的为文字发生翻转的图像,带有“0”标注的为文字未发生翻转的图像。训练完成的文字翻转检测模型106用于检测倾斜文字过程中的文字翻转检测时,输出“1”或“0”,其中,输出“1”指示该输入的文本框子图像中的文字发生了翻转,输出“0”指示该输入的文本框子图像中的文字未发生翻转。
文字翻转矫正模块107用于根据文字翻转检测模型106输出的翻转结果对发生文字翻转的文本框子图像进行矫正。文字翻转矫正模块107的输出结果为文字方向向上的文本框子图像和翻转矫正子图像。经过前述各个模型和模块的工作,原始图像中倾斜的文字区域被检测到,且这些文字区域被变换和矫正形成了文字读写方向水平且文字方向向上的子图像。
下面结合图8具体描述检测倾斜文字的方法流程。
S201,文字角度检测模型101获取原始图像,对原始图像进行文本框倾斜角度检测。
具体地,前述文字角度检测模型101是一个已训练完成的神经网络模型,文字角度检测模型读取原始图像后对原始图像进行特征提取、特征融合,最后根据融合特征张量输出预测文本框的置信度和预测文本框的倾斜角度。预测文本框的置信度与预测文本框的倾斜角度一一对应。
可选的,前述文字角度检测模型101还可以输出预测文本框的位置信息,所述预测文本框的位置信息指示预测文本框在原始图像中的位置,例如用预测文本框的偏移坐标值表示。预测文本框的位置信息与预测文本框的倾斜角度也一一对应。
该步骤的文字角度检测模型采用神经网络模型,利用神经网络模型进行预测文本框的倾斜角度的检测可以保证所获得的预测文本框的倾斜角度准确率高,从而保证整体倾斜文字检测方法的准确率。
S202,根据前述预测文本框的倾斜角度,获得原始图像的文字的倾斜角度。
具体地,对于仅存在单方向倾斜文字的原始图像,对前述文字角度检测模型101输出的多个预测文本框的倾斜角度进行平均值计算,将获得的多个预测文本框的倾斜角度的平均值确定为文字倾斜角度。
可选的,对于仅存在单方向倾斜文字的原始图像,对前述文字角度检测模型101输出的多个预测文本框的倾斜角度根据角度进行聚类,根据聚类结果获得每一类的权值,即每一类的权值为每一类预测文本框的倾斜角度数量占总预测文本框的倾斜角度数量的比值,根据每一类的权值对预测文本框的倾斜角度进行加权平均值计算,获得的多个预测文本框的倾斜角度的加权平均值即为文字的倾斜角度。例如:通过K-means聚类算法将N个预测文本框的倾斜角度聚类成为3类,通过聚类算法后,N个预测文本框的倾斜角度被分为三类,三类倾斜文本框的倾斜角度数量分别为n1、n2、n3,文字倾斜角度θ的值为:(其中,N、n1、n2、n3、i均为正整数,θi表示第i个预测文本框的倾斜角度,其取值为[0,180])。
可选的,对于存在不同倾斜方向的文字的原始图像,可对文字角度检测模型101输出的多个预测文本框的倾斜角度进行聚类,根据聚类结果,对每一类中的预测文本框的倾斜角度进行平均值计算,获得每一类的文字倾斜角度,例如,聚类结果为K类,则获得K个文字的倾斜角度。
该步骤S202对文字角度检测模型101输出的预测文本框的倾斜角度采用简单的平均值计算或聚类后加权平均值计算的方法获得文字倾斜角度,避免了通过一个神经网络模型中复杂的预测文本框合并等后处理流程来获得文字的倾斜角度,在保证获取的文字的倾斜角度的准确率的同时提高了计算效率。
S203,根据文字的倾斜角度对原始图像进行角度矫正,获得角度矫正图像。
具体地,可利用旋转计算方法,对原始图像进行一定角度的旋转,获得角度矫正图像,所旋转的一定角度即为前述文字倾斜角度。
值得注意的是,当原始图像中存在多种不同倾斜角度的文字,则步骤S202可获得K个文字倾斜角度,步骤S203则根据每一个文字倾斜角度对原始图像进行角度矫正,获得K个角度矫正图像,所获得的K个角度矫正图像中的每一个被分别用于执行后续步骤。
S204,文本框检测模型104对角度矫正图像中的文字区域进行文本框检测,输出至少一个文本框的位置信息。
具体地,角度矫正图像输入至文本框检测模型104,文本框检测模型104对角度矫正图像进行特征提取、文本框预测和文本框后处理,确定文本框,输出文本框的位置信息。所述文本框后处理可以包括利用非极大抑制算法对预测文本框进行合并与选择,所述文本框后处理还可以包括对预测文本框的置信度与预设定的阈值进行比较,将置信度高于预设定的阈值的预测文本框进一步地利用后处理算法(例如:非极大抑制算法)进行合并和选择,获得最终确定的文本框。
值得注意的是,对于既存在读写方向为水平方向的文字区域又存在其他倾斜角度文字区域的角度矫正图像(例如:原始图像中存在不同倾斜方向的文字,经过一定角度矫正后的角度矫正图像仅包括一部分读写方向为水平方向的文字又包括一部分读写方向为其他方向的文字),在文本框后处理过程中,首先对预测文本框的置信度与预设定的阈值进行比较,获得置信度高于预设定的阈值的预测文本框,将置信度高于预设定的阈值的预测文本框进一步地利用后处理算法进行最终文本框确定。这样的后处理方式会筛去其他倾斜角度的文本框,使文本框检测模型104仅输出被矫正为水平方向的文字区域对应的文本框。
S205,根据文本框检测模型104输出的至少一个文本框的位置信息从角度矫正图像中分割出文本框中的内容,获得至少一个文本框子图像。
经过上述步骤S201-S205可获得至少一个文本框子图像,文本框子图像中的文字即为原始图像中的倾斜文字,完成了对倾斜文字的检测。在该方法中,通过文字角度检测模型对原始图像中的倾斜文字进行文字的倾斜角度检测,经过角度矫正获得的角度矫正图像通过文本框检测模型获得文字读写方向已校正为水平的文本框子图像,该方法将将倾斜文字检测问题转化成角度检测与水平文字检测两个问题,通过采用不同的神经网络模型分别解决两个问题,大大提高了检测倾斜文字的准确率,且可以保证在原始图像中的文字的倾斜角度较大的情况下,倾斜文字检测依然达到高的准确率。
可选的,检测倾斜文字的方法还可以包括:
S206,将每个文本框子图像输入至文字翻转检测模型106,对每个文本框子图像中的文字进行翻转检测,输出文字翻转信息。
具体地,文字翻转检测模型106对文本框子图像进行二分类操作,输出的文字翻转信息指示该文本框子图像中的文字发生了翻转或未发生翻转,即该文本框子图像中的文字为水平顺时针或逆时针旋转180°的文字或该文本框子图像中的文字为方向向上的文字,其表示形式可以多样,例如:文字翻转信息用“1”或“0”表示,“1”指示该输入的文本框子图像中的文字发生了翻转,“0”指示该输入的文本框子图像中的文字未发生翻转。
S207,根据文字翻转信息,判断每个文本框子图像中的文字是否发生翻转,当文字发生翻转,则对文本框子图像进行翻转矫正;当文字未发生翻转,则不对文本框子图像作进一步处理,输出每个文字子图像。
经过步骤S207,可获得至少一个文字子图像,每个文字子图像中包含的文字即为原始图像中存在一个倾斜角度的倾斜文字,文字子图像中的文字可被进一步地识别和处理。
步骤S206-S207通过引入文字翻转检测模型可保证获得的文字子图像中的文字方向向上,减少了出现文字翻转影响识别的情况,可使文字子图像用于后续文字识别时,提高文字识别的准确率。
值得注意的是,对于包含多组不同倾斜方向的文字的原始图像,执行步骤S201和可选的S202后,获得了多个文字倾斜角度,其中,每组文字的倾斜角度与每个角度矫正图像对应,则根据每个文字倾斜角度执行步骤S203-S207,即对原始图像中具有多组不同倾斜角度的文字分别进行文字检测,最终获得原始图像中多个不同方向的倾斜文字对应的多个文字子图像。
步骤S201-S207将倾斜文字检测的问题转换成文字倾斜角度确定、文本框检测和文字翻转检测三个具有递进性的问题,这种检测倾斜文字的方法利用了三个不同的神经网络模型(文字角度检测模型101、文本框检测模型104、文字翻转检测模型106)串行的方式,使得该方法对待检测的原始图像中任意倾斜角度的文字有较高的准确率和效率,另一方面,该方法中采用的神经网络模型简单,可复用性强,这在极大程度上提高了该方法所需模型的构建速度。
可选的一种检测倾斜文字的方法,本申请还可利用前述文字角度检测模型101、文字角度确定模块102、文本框分割模块105、文字翻转检测模型106和文字翻转矫正模块107完成倾斜文字的检测。具体方法为:文字角度检测模型101获取原始图像中至少一个预测文本框的位置信息和预测文本框的倾斜角度;其中,所述至少一个预测文本框指示所述原始图像中的文字所在的区域;文字角度确定模块102根据预测文本框的倾斜角度获得文字的倾斜角度,文本框分割模块105根据所述至少一个预测文本框的位置信息和所述文字的倾斜角度获取至少一个文本框子图像;文字翻转检测模型106根据每个文本框子图像获取所述每个文本框子图像的文字翻转信息;文字翻转矫正模块107根据所述每个文本框子图像的文字翻转信息获取每个文字子图像,所述文字子图像中的文字的方向向上,其中,所述文字角度检测模型和所述文字翻转检测模型采用不同的神经网络模型。
本申请提供一种倾斜文字检测装置300,如图9所示,该装置包括以下全部或部分模型(模块):文字角度检测模型301、文字角度确定模块302、文字角度矫正模块303、文本框检测模型304、文本框分割模块305、文字翻转检测模型306、文字翻转矫正模块307、存储模块308。该装置也包括前述全部模块(模型),用于执行前述步骤S201-S207描述的检测倾斜文字的方法。该装置也可包括:文字角度检测模型301、文字角度确定模块302、文字角度矫正模块303、文本框检测模型304、文本框分割模块305、存储模块308,用于执行前述步骤S201-S205描述的检测倾斜文字的方法。该装置也可包括:文字角度检测模型301、文字角度确定模块302、文本框分割模块305、文字翻转检测模型306、文字翻转矫正模块307、存储模块308,用于执行前述可选的一种检测倾斜文字的方法。
上述模块(模型)可以为软件模块,文字角度检测模型301用于执行前述S201,获得多个预测文本框的倾斜角度;文字角度确定模块302用于执行前述S202确定文字倾斜角度;文字角度矫正模块303用于执行前述S203;文本框检测模型304用于执行前述S204,获得文本框的位置信息;文本框分割模块305用于执行前述S205,获得文本框子图像,所述文本框子图像被存储于存储模块308;文字翻转检测模型306从存储模块308中读取文本框子图像,执行S206输出文字翻转信息;文字翻转矫正模块307用于执行前述S207,获得的文字子图像保存至存储模块308或传输至其他装置。
可选的,所述存储模块308还可以存储S202产生的多个文字倾斜角度的值或者S203根据多个文字倾斜角度产生的多个角度矫正图像。所述存储模块308还可以存储待进行倾斜文字检测的原始图像集。
倾斜文字检测装置300可以向用户提供倾斜文字检测服务。例如,如图1所述该装置部署在云计算设备系统,用户通过终端计算设备上传待进行倾斜文字检测的原始图像至倾斜文字检测装置300。该装置依次对原始图像执行前述步骤S201-S207,获得的文字子图像传输至云计算设备系统中的其他装置(例如:文字识别装置)或者传输至所述用户的终端计算设备中,又或者存储在该倾斜文字检测装置的存储模块308中。如图2所示,该倾斜文字检测装置300的各部分还可以分开部署,例如:文字角度检测模型301、文字角度确定模块302和文字角度矫正模块303部署在终端计算设备,文本框检测模型304、文本框分割模块305、文字翻转检测模型306、文字翻转矫正模块307和存储模块308部署在云计算设备系统或者距用户的终端计算设备较近的边缘计算设备系统,在执行检测倾斜文字的方法时,由终端计算设备首先对拍摄的原始图像进行倾斜角度矫正,将角度矫正图像上传至云计算设备系统或者边缘计算设备系统进行进一步文字子图像获取或文字识别,这种端云结合的方式充分利用终端计算设备的资源,提高检测倾斜文字的效率。
本申请还提供了一种计算设备400。如图10所示,计算设备400包括总线401、处理器402、通信接口403和存储器404。处理器402、存储器404和通信接口403之间通过总线401通信。
其中,处理器可以为中央处理器(英文:central processing unit,缩写:CPU)。存储器可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:randomaccess memory,缩写:RAM)。存储器还可以包括非易失性存储器(英文:non-volatilememory),例如只读存储器(英文:read-only memory,缩写:ROM),快闪存储器,HDD或SSD。存储器中存储有可执行代码,处理器执行该可执行代码以执行检测倾斜文字的方法。存储器中还可以包括操作系统等其他运行进程所需的软件模块。操作系统可以为LINUXTM,UNIXTM,WINDOWSTM等。
具体地,计算设备400的存储器中存储了倾斜文字检测装置300的各个模块对应的代码,处理器402执行这些代码实现了倾斜文字检测装置300的各个模块的功能,即执行了图7所示的方法。其中倾斜文字检测装置300中的存储模块308可以为计算设备400中的存储器404提供的一部分存储空间。计算设备400可以为云计算设备系统中的计算设备,或边缘计算设备系统中的计算设备,或终端计算设备。
如图11所示,本申请还提供一种计算设备系统,该计算设备系统包括多个计算设备500。每个计算设备500的组织结构与计算设备400相同,包括总线501、处理器502、通信接口503和存储器504。处理器502、存储器504和通信接口503之间通过总线501通信。
其中,处理器502可以为CPU。存储器504可以包括易失性存储器(英文:volatilememory),例如RAM。存储器504还可以包括非易失性存储器,例如ROM,快闪存储器,HDD或SSD。存储器504中存储有可执行代码,处理器502执行该可执行代码以执行检测倾斜文字的部分方法。存储器504中还可以包括操作系统等其他运行进程所需的软件模块。操作系统可以为LINUXTM,UNIXTM,WINDOWSTM等。
每个计算设备500间通过通信网络建立通信通路。每个计算设备500上运行文字角度检测模型301、文字角度确定模块302、文字角度矫正模块303、文本框检测模型304、文本框分割模块305、文字翻转检测模型306、文字翻转矫正模块307、存储模块308中的任意一个或多个。任一计算设备500可以为云计算设备系统中的计算设备,或边缘计算设备系统中的计算设备,或终端计算设备。
上述各个附图对应的流程的描述各有侧重,某个流程中没有详述的部分,可以参见其他流程的相关描述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。倾斜文字检测的计算机程序产品包括一个或多个倾斜文字检测计算机指令,在计算机上加载和执行所述倾斜文字检测计算机程序指令时,全部或部分地产生按照本发明实施例图7所述的流程或功能。
所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质存储有倾斜文字检测计算机程序指令的可读存储介质。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如SSD)。

Claims (17)

1.一种检测倾斜文字的方法,其特征在于,包括:
文字角度检测模型获取原始图像中的文字的倾斜角度;
根据所述倾斜角度对所述原始图像进行矫正,获得角度矫正图像;
文本框检测模型从所述角度矫正图像中确认至少一个文本框,每个文本框指示所述角度矫正图像中的文字所在的区域;
所述文本框检测模型获取所述至少一个文本框的位置信息;
根据所述至少一个文本框的位置信息从所述角度矫正图像中获取至少一个文本框子图像;
文字翻转检测模型根据每个文本框子图像获取所述每个文本框子图像的文字翻转信息;
根据所述每个文本框子图像的文字翻转信息获取每个文字子图像,所述文字子图像中的文字的方向向上;
其中,所述文字角度检测模型和所述文本框检测模型采用不同的神经网络模型。
2.如权利要求1所述的方法,其特征在于,
所述文字角度检测模型采用的神经网络模型和所述文本框检测模型采用的神经网络模型根据不同的图像集进行训练;其中,用于训练所述文字角度检测模型的图像集中包含的图像带有的标注和用于训练所述文本框检测模型的图像集中包含的图像带有的标注不同。
3.如权利要求1或2所述的方法,其特征在于,所述文字翻转检测模型采用的神经网络模型和所述文字角度检测模型采用的神经网络模型不同。
4.如权利要求1-3任一所述的方法,其特征在于,
所述文字翻转检测模型采用的神经网络模型和所述文字角度检测模型采用的神经网络模型根据不同的图像集进行训练;其中,用于训练所述文字翻转检测模型的图像集中包含的图像带有的标注和用于训练所述文字角度检测模型的图像集中包含的图像集带有的标注不同。
5.如权利要求1-4任一所述的方法,其特征在于,
所述文字翻转检测模型采用的神经网络模型和所述文本框检测模型采用的神经网络模型不同。
6.如权利要求1-5任一所述的方法,其特征在于,
所述文字翻转检测模型采用的神经网络模型和所述文本框检测模型采用的神经网络模型根据不同的图像集进行训练;其中,用于训练所述文字翻转检测模型的图像集中包含的图像带有的标注和用于训练所述文本框检测模型的图像集中包含的图像集带有的标注不同。
7.如权利要求1-6任一所述的方法,其特征在于,所述文字角度检测模型获取原始图像中的文字的倾斜角度包括:
所述文字角度检测模型对所述原始图像进行特征提取和特征融合获得融合特征张量,根据所述融合特征张量输出多个预测文本框的倾斜角度;
根据所述文字角度检测模型输出的多个预测文本框的倾斜角度获取所述原始图像的文字的倾斜角度。
8.一种倾斜文字检测装置,其特征在于,包括:
文字角度检测模型,用于获取原始图像中的文字的倾斜角度;
文字角度矫正模块,用于根据所述倾斜角度对所述原始图像进行矫正,获得角度矫正图像;
文本框检测模型,用于从所述角度矫正图像中确认至少一个文本框,每个文本框指示所述角度矫正图像中的文字所在的区域;还用于获取所述至少一个文本框的位置信息;
文本框分割模块,用于根据所述至少一个文本框的位置信息从所述角度矫正图像中获取至少一个文本框子图像;
文字翻转检测模型,用于根据每个文本框子图像获取所述每个文本框子图像的文字翻转信息;
文字翻转矫正模块,用于根据每个文本框子图像的文字翻转信息获取每个文字子图像,所述文字子图像中的文字的方向向上;
其中,所述文字角度检测模型和所述文本框检测模型采用不同的神经网络模型。
9.如权利要求8所述的装置,其特征在于,
所述文字角度检测模型采用的神经网络模型和所述文本框检测模型采用的神经网络模型根据不同的图像集训练获得;其中,用于训练所述文字角度检测模型的图像集中包含的图像带有的标注和用于训练所述文本框检测模型的图像集中包含的图像带有的标注不同。
10.如权利要求8或9所述的装置,其特征在于,
所述文字翻转检测模型采用的神经网络模型和所述文字角度检测模型采用的神经网络模型不同。
11.如权利要求8-10任一所述的装置,其特征在于,
所述文字翻转检测模型采用的神经网络模型和所述文字角度检测模型采用的神经网络模型根据不同的图像集训练获得;其中,用于训练所述文字翻转检测模型的图像集中包含的图像带有的标注和用于训练所述文字角度检测模型的图像集中包含的图像集带有的标注不同。
12.如权利要求8-11任一所述的装置,其特征在于,
所述文字翻转检测模型采用的神经网络模型和所述文本框检测模型采用的神经网络模型不同。
13.如权利要求8-12任一所述的装置,其特征在于,
所述文字翻转检测模型采用的神经网络模型和所述文本框检测模型采用的神经网络模型根据不同的图像集训练获得;其中,用于训练所述文字翻转检测模型的图像集中包含的图像带有的标注和用于训练所述文本框检测模型的图像集中包含的图像集带有的标注不同。
14.如权利要求8-13任一所述的装置,其特征在于,所述倾斜文字检测装置还包括文字角度确定模块;
所述文字角度检测模型,还用于对所述原始图像进行特征提取和特征融合获得融合特征张量,根据所述融合特征张量输出多个预测文本框的倾斜角度;
所述文字角度确定模块,用于根据所述文字角度检测模型输出的多个预测文本框的倾斜角度获取所述原始图像的文字的倾斜角度。
15.一种计算设备系统,包括至少一台计算设备,其特征在于,每台计算设备包括存储器和处理器,所述至少一台计算设备的存储器,用于存储计算机指令;
所述至少一台计算设备的处理器执行所述存储器存储的计算机指令,以执行上述权利要求1至7中任一项所述的方法。
16.一种非瞬态的可读存储介质,其特征在于,所述非瞬态的可读存储介质被计算设备执行时,所述计算设备执行上述权利要求1至7中任一项所述的方法。
17.一种计算机程序产品,其特征在于,所述计算机程序产品被计算设备执行时,所述计算设备执行上述权利要求1至7中任一项所述的方法。
CN201980096094.8A 2019-05-05 2019-05-05 一种检测倾斜文字的方法、装置及设备 Active CN113785305B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/085553 WO2020223859A1 (zh) 2019-05-05 2019-05-05 一种检测倾斜文字的方法、装置及设备

Publications (2)

Publication Number Publication Date
CN113785305A CN113785305A (zh) 2021-12-10
CN113785305B true CN113785305B (zh) 2024-04-16

Family

ID=73050664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980096094.8A Active CN113785305B (zh) 2019-05-05 2019-05-05 一种检测倾斜文字的方法、装置及设备

Country Status (2)

Country Link
CN (1) CN113785305B (zh)
WO (1) WO2020223859A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395450B (zh) * 2020-11-17 2024-03-19 平安科技(深圳)有限公司 图片文字检测方法、装置、计算机设备及存储介质
CN112232315B (zh) * 2020-12-11 2021-03-19 北京易真学思教育科技有限公司 文本框检测方法、装置、电子设备和计算机存储介质
CN112650391A (zh) * 2020-12-23 2021-04-13 网易(杭州)网络有限公司 基于虚拟现实的人机交互方法、装置、设备及存储介质
CN112818983B (zh) * 2021-01-22 2024-08-02 常州友志自动化科技有限公司 一种利用图片相识度判断字符倒置的方法
CN112906708B (zh) * 2021-03-29 2023-10-24 北京世纪好未来教育科技有限公司 一种图片处理方法、装置、电子设备和计算机存储介质
CN113128492A (zh) * 2021-05-17 2021-07-16 中国银行股份有限公司 一种票据文本定位方法和装置
CN113537189A (zh) * 2021-06-03 2021-10-22 深圳市雄帝科技股份有限公司 手写文字识别方法、装置、设备及存储介质
CN113673497A (zh) * 2021-07-21 2021-11-19 浙江大华技术股份有限公司 文本检测方法、终端及其计算机可读存储介质
CN113780087B (zh) * 2021-08-11 2024-04-26 同济大学 一种基于深度学习的邮政包裹文本检测方法及设备
CN113869314B (zh) * 2021-10-13 2024-07-16 广东金赋科技股份有限公司 一种文本方向聚类矫正的图像信息提取方法及系统
CN114494751A (zh) * 2022-02-16 2022-05-13 国泰新点软件股份有限公司 证照信息识别方法、装置、设备及介质
CN114820211B (zh) * 2022-04-26 2024-06-14 中国平安人寿保险股份有限公司 理赔资料质检核验方法、装置、计算机设备及存储介质
CN115100659B (zh) * 2022-06-13 2024-08-02 深圳市星桐科技有限公司 文本识别方法、装置、电子设备和存储介质
CN115457559B (zh) * 2022-08-19 2024-01-16 上海通办信息服务有限公司 一种将文本及证照类图片智能摆正的方法、装置和设备
CN115359493B (zh) * 2022-10-08 2023-09-08 深圳比特微电子科技有限公司 旋转文字检测方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105809164A (zh) * 2016-03-11 2016-07-27 北京旷视科技有限公司 文字识别方法和装置
CN108427950A (zh) * 2018-02-01 2018-08-21 北京捷通华声科技股份有限公司 一种文字行检测方法及装置
CN108764195A (zh) * 2018-06-04 2018-11-06 平安科技(深圳)有限公司 手写模型训练方法、手写字识别方法、装置、设备及介质
CN109583445A (zh) * 2018-11-26 2019-04-05 平安科技(深圳)有限公司 文字图像校正处理方法、装置、设备及存储介质
CN109636815A (zh) * 2018-12-19 2019-04-16 东北大学 一种基于计算机视觉的金属板带产品标签信息识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631426B (zh) * 2015-12-29 2019-05-07 中国科学院深圳先进技术研究院 对图片进行文本检测的方法及装置
CN108133212B (zh) * 2018-01-05 2021-06-29 东华大学 一种基于深度学习的定额发票金额识别系统
CN109376658B (zh) * 2018-10-26 2022-03-08 信雅达科技股份有限公司 一种基于深度学习的ocr方法
CN109389121B (zh) * 2018-10-30 2021-11-09 金现代信息产业股份有限公司 一种基于深度学习的铭牌识别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105809164A (zh) * 2016-03-11 2016-07-27 北京旷视科技有限公司 文字识别方法和装置
CN108427950A (zh) * 2018-02-01 2018-08-21 北京捷通华声科技股份有限公司 一种文字行检测方法及装置
CN108764195A (zh) * 2018-06-04 2018-11-06 平安科技(深圳)有限公司 手写模型训练方法、手写字识别方法、装置、设备及介质
CN109583445A (zh) * 2018-11-26 2019-04-05 平安科技(深圳)有限公司 文字图像校正处理方法、装置、设备及存储介质
CN109636815A (zh) * 2018-12-19 2019-04-16 东北大学 一种基于计算机视觉的金属板带产品标签信息识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于East的大角度倾斜车牌检测算法研究;杨飚;周文婷;;现代计算机(12);第55-58页 *

Also Published As

Publication number Publication date
WO2020223859A1 (zh) 2020-11-12
CN113785305A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
CN113785305B (zh) 一种检测倾斜文字的方法、装置及设备
WO2021164228A1 (zh) 一种图像数据的增广策略选取方法及系统
CN109241880B (zh) 图像处理方法、图像处理装置、计算机可读存储介质
CN108304775B (zh) 遥感图像识别方法、装置、存储介质以及电子设备
CN108764195B (zh) 手写模型训练方法、手写字识别方法、装置、设备及介质
CN106446896B (zh) 一种字符分割方法、装置及电子设备
US20190095730A1 (en) End-To-End Lightweight Method And Apparatus For License Plate Recognition
CN110942074B (zh) 字符切分识别方法、装置、电子设备、存储介质
CN111615702B (zh) 一种从图像中提取结构化数据的方法、装置和设备
KR20210110823A (ko) 이미지 인식 방법, 인식 모델의 트레이닝 방법 및 관련 장치, 기기
CN109086653B (zh) 手写模型训练方法、手写字识别方法、装置、设备及介质
US20160140422A1 (en) Image processing apparatus, image processing method and program
CN109117846B (zh) 一种图像处理方法、装置、电子设备和计算机可读介质
CN111680690B (zh) 一种文字识别方法及装置
CN112633159B (zh) 人-物交互关系识别方法、模型训练方法及对应装置
CN111104941B (zh) 图像方向纠正方法、装置及电子设备
CN112364873A (zh) 弯曲文本图像的文字识别方法、装置及计算机设备
CN113205142A (zh) 一种基于增量学习的目标检测方法和装置
KR20200092450A (ko) 데이터 라벨링을 수행하기 위한 기법
CN114419313A (zh) 影像辨识方法及影像辨识系统
US20220335572A1 (en) Semantically accurate super-resolution generative adversarial networks
US10685253B2 (en) Advanced cloud detection using neural networks and optimization techniques
US20160019440A1 (en) Feature Interpolation
CN110176006A (zh) 图像前景物体分割方法及装置
CN111476226B (zh) 一种文本定位方法、装置及模型训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220224

Address after: 550025 Huawei cloud data center, jiaoxinggong Road, Qianzhong Avenue, Gui'an New District, Guiyang City, Guizhou Province

Applicant after: Huawei Cloud Computing Technologies Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Applicant before: HUAWEI TECHNOLOGIES Co.,Ltd.

GR01 Patent grant
GR01 Patent grant