CN113128306A - 垂直文本行识别方法、装置、设备及计算机可读存储介质 - Google Patents

垂直文本行识别方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN113128306A
CN113128306A CN202010025426.8A CN202010025426A CN113128306A CN 113128306 A CN113128306 A CN 113128306A CN 202010025426 A CN202010025426 A CN 202010025426A CN 113128306 A CN113128306 A CN 113128306A
Authority
CN
China
Prior art keywords
vertical
text line
recognized
text
vertical text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010025426.8A
Other languages
English (en)
Inventor
卢永晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN202010025426.8A priority Critical patent/CN113128306A/zh
Publication of CN113128306A publication Critical patent/CN113128306A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

本公开提供一种垂直文本行识别方法、装置、设备及计算机可读存储介质,方法包括:获取待识别垂直文本行;将待识别垂直文本行向预设的第一方向旋转预设的角度,获得旋转后的待识别垂直文本行;通过预设的文本分割模型对旋转后的待识别垂直文本行进行分割操作,获得至少两个旋转后的文字;将至少两个旋转后的文字向预设的第二方向进行旋转预设的角度,获得至少两个水平方向的文字,第一方向与第二方向相反;对至少两个水平方向的文字进行拼接操作,获得水平方向的待识别垂直文本行,对水平方向的待识别垂直文本行进行识别操作。从而能够采用现有的任意一种文字识别模型对其进行识别,提高垂直文本行的识别率,也能够提高文字识别模型的适用度。

Description

垂直文本行识别方法、装置、设备及计算机可读存储介质
技术领域
本公开涉及图像处理领域,尤其涉及一种垂直文本行识别方法、装置、设备及计算机可读存储介质。
背景技术
由于实际应用中,很多图像中都包括文字信息,因此,对图像信息的文字识别应用在了越来越多的场景中。以短视频应用软件举例来说,当用户上传视频信息之后,该视频信息中可能包括文字信息,需要对该文字信息进行识别,以确定该视频是否包含违法信息,或者,可以根据文字信息对该视频进行分类等操作。
为了实现对图像中文字信息的识别,现有技术中一般都是使用OCR模型进行识别。但是,由于用户的书写以及阅读习惯,一般OCR模型的训练文本都是水平的文本行,而垂直方向的文本行训练文本较少。相应地,上述方法仅能够对水平文本行进行精准识别,其无法对垂直文本行进行识别,识别目标较为单一,适用性不强。
发明内容
本公开提供一种垂直文本行识别方法、装置、设备及计算机可读存储介质,用于解决现有的文字信息识别方法无法对垂直文本行进行识别,识别目标较为单一、适用性不强的技术问题。
本公开的第一个方面是提供一种垂直文本行识别方法,包括:
获取待识别垂直文本行,其中,所述待识别垂直文本行中文字的阅读方向垂直与水平方向;
将所述待识别垂直文本行向预设的第一方向旋转预设的角度,获得旋转后的待识别垂直文本行;
通过预设的文本分割模型对所述旋转后的待识别垂直文本行进行分割操作,获得至少两个旋转后的文字;
将所述至少两个旋转后的文字向预设的第二方向进行旋转预设的角度,获得至少两个水平方向的文字,其中,所述第一方向与所述第二方向相反;
对所述至少两个水平方向的文字进行拼接操作,获得水平方向的待识别垂直文本行,对所述水平方向的待识别垂直文本行进行识别操作。
本公开的第二个方面是提供一种垂直文本行识别装置,包括:
获取模块,用于获取待识别垂直文本行,其中,所述待识别垂直文本行中文字的阅读方向垂直与水平方向;
旋转模块,用于将所述待识别垂直文本行向预设的第一方向旋转预设的角度,获得旋转后的待识别垂直文本行;
分割模块,用于通过预设的文本分割模型对所述旋转后的待识别垂直文本行进行分割操作,获得至少两个旋转后的文字;
旋转模块,用于将所述至少两个旋转后的文字向预设的第二方向进行旋转预设的角度,获得至少两个水平方向的文字,其中,所述第一方向与所述第二方向相反;
识别模块,用于对所述至少两个水平方向的文字进行拼接操作,获得水平方向的待识别垂直文本行,对所述水平方向的待识别垂直文本行进行识别操作。
本公开的第三个方面是提供一种垂直文本行识别设备,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为由所述处理器执行如第一方面所述的垂直文本行识别方法。
本公开的第四个方面是提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所述的垂直文本行识别方法。
本公开提供的垂直文本行识别方法、装置、设备及计算机可读存储介质,通过将待识别垂直文本行进行旋转操作,将其转换为水平方向的待识别垂直文本行,从而能够采用现有的任意一种文字识别模型对其进行识别,提高垂直文本行的识别率,也能够提高文字识别模型的适用度。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本公开实施例一提供的垂直文本行识别方法的流程示意图;
图2为本公开实施例提供的文本行示意图;
图3为本公开实施例提供的垂直文本行旋转示意图;
图4为本公开实施例提供的文字旋转示意图;
图5为本公开实施例提供的应用场景示意图;
图6为本公开实施例二提供的垂直文本行识别方法的流程示意图;
图7为本公开实施例三提供的垂直文本行识别装置的结构示意图;
图8为本公开实施例四提供的垂直文本行识别设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例所获得的所有其他实施例,都属于本公开保护的范围。
针对上述提及的在现有的文字识别方法中,一般采用OCR模型对包含文本信息的图像进行识别,但是,OCR模型的训练文本中垂直文本行较少,因此无法对垂直文本行进行精准识别的技术问题,本公开提供了一种垂直文本行识别方法、装置、设备及计算机可读存储介质,其能够预先将垂直文本行转换为水平文本行,对水平文本行进行文字识别操作,能够大大地提高垂直文本行的识别精准度,提高OCR模型的适用性。
需要说明的是,本公开提供的垂直文本行识别方法、装置、设备及计算机可读存储介质能够应用在任意一种对文字进行识别的场景中。
本公开基于的网络架构至少包括:数据服务器、垂直文本行识别装置。其中,垂直文本行识别装置采用C/C++、Java、Shell或Python等语言编写;数据服务器中存储有大量的数据。数据服务器与垂直文本行识别装置通信连接。
图1为本公开实施例一提供的垂直文本行识别方法的流程示意图,如图1所示,所述方法包括:
步骤101、获取待识别垂直文本行,其中,所述待识别垂直文本行中文字的阅读方向垂直与水平方向。
本实施例的执行主体为垂直文本行识别装置。水平文本行即为文字阅读方向平行于水平线的文本行,相应地,垂直文本行即为文字阅读方向垂直于水平线的文本行,其可以包括阅读方向与水平线呈90°以及-90°的文本行。图2为本公开实施例提供的文本行示意图,如图2所示,“水平文本行”中文字的阅读方向为从左到右,平行与水平线,“垂直文本行”中文字的阅读方向为从上到下,垂直与水平线。
由于目前的OCR模型只能够对水平文本行进行精准的识别,因此,针对垂直文本行,则可以预先将其转换为水平文本行,再通过OCR模型对该转换后的水平文本行进行识别,从而能够实现对垂直文本行的精准识别。因此,首先需要获取待识别垂直文本行。以短视频应用软件举例来说,首先垂直文本行识别装置可以从数据服务器中获取视频数据。由于OCR模型能够使水平文本行进行精准的识别,因此,无需对水平文本行进行预处理,仅需要对垂直文本行进行预处理。此时可以对该视频数据进行识别,确定视频数据中的垂直文本行。
步骤102、将所述待识别垂直文本行向预设的第一方向旋转预设的角度,获得旋转后的待识别垂直文本行。
在本实施方式中,由于垂直文本行为垂直与水平线的文本行,其竖直方向的长度大于水平方向的长度。可以将待识别垂直文本行向预设的第一方向进行旋转操作,将其旋转预设的角度,其中,由于垂直文本行垂直与水平线,因此,该预设的角度可以为90°。图3为本公开实施例提供的垂直文本行旋转示意图,如图3所示,将“垂直文本行”顺时针旋转90°,即能够得到一水平方向的长度大于竖直方向的长度的水平文本行。需要说明的是,可以对垂直文本行进行顺时针旋转,也可以进行逆时针旋转,本公开对此不进行限制。
步骤103、通过预设的文本分割模型对所述旋转后的待识别垂直文本行进行分割操作,获得至少两个旋转后的文字。
在本实施方式中,在对垂直文本行进行旋转操作之后,虽然旋转后的待识别垂直文本行整体的水平方向的长度大于竖直方向的长度,与水平文本行具有相同的特质。但是,如图3所示,旋转后的待识别垂直文本行中的文字的朝向均与水平方向平行,并非OCR模型能够识别的形式,因此,还需要进一步地对旋转后的待识别垂直文本行中的文字进行调节。
具体地,可以通过预设的文本分割模型对旋转后的待识别垂直文本行进行分割操作,由于单个的文本不存在水平与垂直的区别,因此,对旋转后的待识别垂直文本行进行分割后,能够获得至少两个旋转后的文字。该文本分割模型可以对旋转后的待识别垂直文本行中的文字进行框出,并确定文字的位置信息,实现对旋转后的待识别垂直文本行的分割操作。其中,该预设的文本分割模型可以为任意一种能够实现文本分割的模型,举例来说,其可以为神经网络模型,本公开对此不做限制。
步骤104、将所述至少两个旋转后的文字向预设的第二方向进行旋转预设的角度,获得至少两个水平方向的文字,其中,所述第一方向与所述第二方向相反。
在本实施方式中,对旋转后的待识别垂直文本行进行分割操作,确定至少两个旋转后的文字之后,由于该文字的朝向均与水平方向平行,并非OCR模型能够识别的形式,因此,还需要对旋转后的文字向预设的第二方向旋转预设的角度,获得水平方向的文字。需要说明的是,第一方向与第二方向相反。举例来说,若将待识别垂直文本行顺时针旋转90°,则需要对旋转后的文字逆时针旋转90°;相应地,若将待识别垂直文本行逆时针旋转90°,则需要对旋转后的文字顺时针旋转90°,获得水平方向的文字。图4为本公开实施例提供的文字旋转示意图,如图4所示,可以将“文”字逆时针旋转90°,获得水平方向的“文”字。
步骤105、对所述至少两个水平方向的文字进行拼接操作,获得水平方向的待识别垂直文本行,对所述水平方向的待识别垂直文本行进行识别操作。
在本实施方式中,针对每一旋转后的文字,均向第二方向旋转,获得水平方向的文字之后,可以对至少两个水平方向的文字进行拼接操作,获得水平方向的待识别垂直文本行。此时,水平方向的待识别垂直文本行能够被文字识别模型精准识别。因此,可以对水平方向的待识别垂直文本行进行识别操作。需要说明的是,该文字识别模型可以为任意一种能够实现对文字识别的模型,例如,其可以为OCR模型,本公开在此不做限制。
图5为本公开实施例提供的应用场景示意图,如图5所示,图像中的文字“垂直文本行”的阅读方向与水平方向垂直,因此,可以对其进行旋转操作,将旋转后的“垂直文本行”中的文字进行进一步地分割以及旋转操作,获得水平方向的“垂直文本行”字样。
具体地,在上述任一实施例的基础上,步骤105具体包括:
通过OCR模型对所述水平方向的待识别垂直文本行进行识别操作
在本实施例中,具体可以采用OCR模型对水平方向的待识别垂直文本行进行识别操作。
本实施例提供的垂直文本行识别方法,通过将待识别垂直文本行进行旋转操作,将其转换为水平方向的待识别垂直文本行,从而能够采用现有的任意一种文字识别模型对其进行识别,提高垂直文本行的识别率,也能够提高文字识别模型的适用度。
进一步地,在上述任一实施例的基础上,步骤101具体包括:
获取待处理图像,确定所述待处理图像中的目标文本;
通过预设的网络模型确定所述目标文本中的待识别垂直文本行;或,
通过预设的标注信息确定所述目标文本中的待识别垂直文本行。
在本实施例中,由于OCR模型能够使水平文本行进行精准的识别,因此,无需对水平文本行进行预处理,仅需要对垂直文本行进行预处理。此时,需要获取垂直文本行作为待识别垂直文本行。具体地,可以获取待处理图像,该待处理图像可以为垂直文本行识别装置从预设的数据服务器中获取,也可以为终端设备发送的,其可以为单一的图像,也可以为视频中的任一帧图像。确定待处理图像中的目标文本。此时,由于不知道该目标文本为水平文本行还是垂直文本行,因此,可以采用两种方式实现对文本行类型的确定。
可选地,可以采用预设的网络模型确定目标文本中的待识别垂直文本行,该网络模型可以为任意一种能够实现文本检测的模型;该网路模型具体可以确定目标文本是否为水平文本行。
可选地,目标文本中可能存在标注信息,该标注信息用于表征目标文本中文字的阅读方向,从而能够根据预设的标注信息确定目标文本中的待识别垂直文本行。
本实施例提供的垂直文本行识别方法,通过预设的网络模型或预设的标注信息确定目标文本中的待识别垂直文本行,从而无需对水平文本行进行旋转等预处理操作,避免对水平文本行的无效处理,提高待识别文本行的识别效率。
图6为本公开实施例二提供的垂直文本行识别方法的流程示意图,在上述任一实施例的基础上,如图6所示,所述通过预设的网络模型确定所述目标文本中的待识别垂直文本行,包括:
步骤201、将所述目标文本输入至预设的网络模型中,获得所述目标文本对应的第一置信度,所述置信度用于表征所述目标文本的阅读方向与所述水平方向之间的角度;
步骤202、若所述第一置信度低于预设的阈值,则将所述目标文本旋转预设的角度,获得旋转后的目标文本;
步骤203、将所述旋转后的目标文本输入至所述网络模型中,获得所述目标文本对应的第二置信度;
步骤204、若所述第二置信度低于预设的阈值,则将所述目标文本作为所述待识别垂直文本行。
在本实施例中,为了获取目标文本中的待识别垂直文本行,具体可以将目标文本输入至预设的网络模型中,获得与目标文本对应的第一置信度。该第一置信度用于表征目标文本的阅读方向与水平方向之间的角度,其中,若第一置信度高于预设的阈值,则表征目标文本的阅读方向与水平方向之间的角度为0°,相应地,若第一置信度低于预设的阈值,则表征目标文本的阅读方向不为0°,则该目标文本可能为垂直文本行,也可以为阅读方向与水平方向成180°的文本行。
当第一置信度小于预设的阈值时,为了进一步地确定该目标文本是否为垂直文本行,可以将其旋转预设的角度,获得旋转后的目标文本,其中,该预设的角度可以为180°。将旋转后的目标文本输入至预设的网络模型中,获得该旋转后的目标文本对应的第二置信度,若该第二置信度大于预设的阈值,则可以将旋转后的目标文本作为水平文本行,相应地,若第二置信度小于预设的阈值,则可以将该目标文本作为待识别垂直文本行。
以实际应用举例来说,将目标文本输入至预设的网络模型中,获得该目标文本的第一置信度为0.95,其大于预设的阈值0.9,则表征其为水平文本行。相应地,若该目标文本的第一置信度为0.6,小于预设的阈值0.9,则表征其不是水平文本行。则其可能是垂直文本行,也可能是翻转180°的水平文本行,为了进一步地确定该目标文本的类型,可以将其旋转180度,获得旋转后的目标文本,将旋转后的目标文本输入至预设的网络模型中,获得旋转后的目标文本对应的第二置信度,若该第二置信度大于0.9,则表征其为水平文本行,则可以直接对其进行识别处理,相应地,若第二置信度仍旧小于0.9,则可以判定该目标文本为垂直文本行,因此,可以将其作为待识别垂直文本行进行旋转校正操作。
本实施例提供的垂直文本行识别方法,通过预设的网络模型确定目标文本中的待识别垂直文本行,从而无需对水平文本行进行旋转等预处理操作,避免对水平文本行的无效处理,提高待识别文本行的识别效率。
可选地,在上述任一实施例的基础上,所述通过预设的标注信息确定所述目标文本中的待识别垂直文本行,包括:
确定所述目标文本对应的标注信息,所述标注信息用于表征所述目标文本中文字的阅读方向;
若所述标注信息表征所述目标文本中文字的阅读方向垂直与水平方向,则将所述目标文本作为所述待识别垂直文本行。
在本实施例中,可以根据目标文本对应的标注信息确定目标文本中的垂直文本行。具体地,目标文本中包括标注信息,该标注信息包括上、下、左、右四个方向,其中,若标注信息为左或右,则表征目标文本为垂直文本行,相应地,若标注信息为上,则表征目标文本为水平文本行,若标注信息为下,则表征目标文本为旋转180°的水平文本行。该标注信息可以为在前期对待处理图像进行预处理时标注的。从而能够根据该标注信息快速地确定目标文本中的待识别垂直文本行。通过采用标注信息确定目标文本中的垂直文本行,从而无需采用神经网络对目标文本在多个角度上进行遍历,提高垂直文本行的确定效率。
本实施例提供的垂直文本行识别方法,通过预设的标注信息确定目标文本中的待识别垂直文本行,从而无需对水平文本行进行旋转等预处理操作,避免对水平文本行的无效处理,提高待识别文本行的识别效率。
进一步地,在上述任一实施例的基础上,为了保证拼接后的水平文本行具有可读性,所述方法包括:
确定各所述旋转后的文字在所述待识别垂直文本行中的顺序;
相应地,所述对所述至少两个水平方向的文字进行拼接操作,包括:
根据所述顺序对所述至少两个水平方向的文字进行拼接操作。
在本实施例中,还可以确定每个旋转后的文字在待识别垂直文本行中的顺序,从而后续可以根据该顺序对旋转后的水平方向的文字进行拼接。由于拼接后的水平文本行中文字的顺序与待识别垂直文本行中一致,因此,能够保证旋转处理后的待识别垂直文本行的含义不发生改变,可读性较高。
进一步地,在上述任一实施例的基础上,步骤105之后,所述方法包括:
根据识别结果对所述待识别垂直文本行进行分类操作;或,
根据识别结果对所述待识别垂直文本行的合法性进行判断。
在本实施例中,在对待识别垂直文本行进行校正操作,将其转换为水平文本行,并对其进行识别,获得识别结果之后,可以根据该识别结果对该待识别垂直文本行进行分类操作。以短视频应用软件举例来说,可以对短视频中的垂直文本行进行识别,根据识别结果对垂直文本行进行分类操作,进而能够对包含该垂直文本行的短视频进行分类操作,例如体育、娱乐、书法等类别。
作为一种可以实施的方式,还可以根据识别结果对待识别垂直文本行的合法性进行判断。仍旧以短视频应用软件举例来说,可以对短视频中的垂直文本行进行识别,根据识别结果确定该短视频中是否包括不合法的文字信息,若有,则可以提示用户对其进行修改,或者删除操作。
本实施例提供的垂直文本行识别方法,通过根据别结果对待识别垂直文本行进行相应处理,从而能够在实现对垂直文本行的精准识别的基础上,实现对待识别垂直文本行对应的识别结果的分类以及审核处理。
图7为本公开实施例三提供的垂直文本行识别装置的结构示意图,如图7所示,所述垂直文本行识别装置30包括:获取模块31、旋转模块32、分割模块33以及识别模块34;其中,
获取模块31,用于获取待识别垂直文本行,其中,所述待识别垂直文本行中文字的阅读方向垂直与水平方向;旋转模块32,用于将所述待识别垂直文本行向预设的第一方向旋转预设的角度,获得旋转后的待识别垂直文本行;分割模块33,用于通过预设的文本分割模型对所述旋转后的待识别垂直文本行进行分割操作,获得至少两个旋转后的文字;旋转模块32,用于将所述至少两个旋转后的文字向预设的第二方向进行旋转预设的角度,获得至少两个水平方向的文字,其中,所述第一方向与所述第二方向相反;识别模块34,用于对所述至少两个水平方向的文字进行拼接操作,获得水平方向的待识别垂直文本行,对所述水平方向的待识别垂直文本行进行识别操作。
本实施例提供的垂直文本行识别装置,通过将待识别垂直文本行进行旋转操作,将其转换为水平方向的待识别垂直文本行,从而能够采用现有的任意一种文字识别模型对其进行识别,提高垂直文本行的识别率,也能够提高文字识别模型的适用度。
进一步地,在上述实施例三的基础上,所述获取模块31用于:
获取待处理图像,确定所述待处理图像中的目标文本;
通过预设的网络模型确定所述目标文本中的待识别垂直文本行;或,
通过预设的标注信息确定所述目标文本中的待识别垂直文本行。
进一步地,在上述任一实施例的基础上,所述获取模块31用于:
将所述目标文本输入至预设的网络模型中,获得所述目标文本对应的第一置信度,所述置信度用于表征所述目标文本的阅读方向与所述水平方向之间的角度;
若所述第一置信度低于预设的阈值,则将所述目标文本旋转预设的角度,获得旋转后的目标文本;
将所述旋转后的目标文本输入至所述网络模型中,获得所述目标文本对应的第二置信度;
若所述第二置信度低于预设的阈值,则将所述目标文本作为所述待识别垂直文本行。
进一步地,在上述任一实施例的基础上,所述获取模块31用于:
确定所述目标文本对应的标注信息,所述标注信息用于表征所述目标文本中文字的阅读方向;
若所述标注信息表征所述目标文本中文字的阅读方向垂直与水平方向,则将所述目标文本作为所述待识别垂直文本行。
进一步地,在上述任一实施例的基础上,所述装置还包括:
顺序确定模块,用于确定各所述旋转后的文字在所述待识别垂直文本行中的顺序;
相应地,所述识别模块34用于:
根据所述顺序对所述至少两个水平方向的文字进行拼接操作。
进一步地,在上述任一实施例的基础上,所述识别模块34用于:
通过OCR模型对所述水平方向的待识别垂直文本行进行识别操作。
进一步地,在上述任一实施例的基础上,所述装置还包括:
处理模块,用于根据识别结果对所述待识别垂直文本行进行分类操作;或,
处理模块,用于根据识别结果对所述待识别垂直文本行的合法性进行判断。
图8为本公开实施例四提供的垂直文本行识别设备的结构示意图,如图8所示,所述垂直文本行识别设备包括:存储器41,处理器42;
存储器41;用于存储所述处理器42可执行指令的存储器41;
其中,所述处理器42被配置为由所述处理器42执行如上述任一实施例所述的垂直文本行识别方法。
具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器41可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
其中,处理器42可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本公开实施例的一个或多个集成电路。
可选的,在具体实现上,如果存储器41和处理器42独立实现,则存储器41和处理器42可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器41和处理器42集成在一块芯片上实现,则存储器41和处理器42可以通过内部接口完成相同间的通信。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本公开还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如前述任一方法实施例所述的垂直文本行识别方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims (10)

1.一种垂直文本行识别方法,其特征在于,包括:
获取待识别垂直文本行,其中,所述待识别垂直文本行中文字的阅读方向垂直与水平方向;
将所述待识别垂直文本行向预设的第一方向旋转预设的角度,获得旋转后的待识别垂直文本行;
通过预设的文本分割模型对所述旋转后的待识别垂直文本行进行分割操作,获得至少两个旋转后的文字;
将所述至少两个旋转后的文字向预设的第二方向进行旋转预设的角度,获得至少两个水平方向的文字,其中,所述第一方向与所述第二方向相反;
对所述至少两个水平方向的文字进行拼接操作,获得水平方向的待识别垂直文本行,对所述水平方向的待识别垂直文本行进行识别操作。
2.根据权利要求1所述的方法,其特征在于,所述获取待识别垂直文本行,包括:
获取待处理图像,确定所述待处理图像中的目标文本;
通过预设的网络模型确定所述目标文本中的待识别垂直文本行;或,
通过预设的标注信息确定所述目标文本中的待识别垂直文本行。
3.根据权利要求2所述的方法,其特征在于,所述通过预设的网络模型确定所述目标文本中的待识别垂直文本行,包括:
将所述目标文本输入至预设的网络模型中,获得所述目标文本对应的第一置信度,所述置信度用于表征所述目标文本的阅读方向与所述水平方向之间的角度;
若所述第一置信度低于预设的阈值,则将所述目标文本旋转预设的角度,获得旋转后的目标文本;
将所述旋转后的目标文本输入至所述网络模型中,获得所述目标文本对应的第二置信度;
若所述第二置信度低于预设的阈值,则将所述目标文本作为所述待识别垂直文本行。
4.根据权利要求2所述的方法,其特征在于,所述通过预设的标注信息确定所述目标文本中的待识别垂直文本行,包括:
确定所述目标文本对应的标注信息,所述标注信息用于表征所述目标文本中文字的阅读方向;
若所述标注信息表征所述目标文本中文字的阅读方向垂直与水平方向,则将所述目标文本作为所述待识别垂直文本行。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
确定各所述旋转后的文字在所述待识别垂直文本行中的顺序;
相应地,所述对所述至少两个水平方向的文字进行拼接操作,包括:
根据所述顺序对所述至少两个水平方向的文字进行拼接操作。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述对所述水平方向的待识别垂直文本行进行识别操作,包括:
通过OCR模型对所述水平方向的待识别垂直文本行进行识别操作。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述对所述水平方向的待识别垂直文本行进行识别操作之后,还包括:
根据识别结果对所述待识别垂直文本行进行分类操作;或,
根据识别结果对所述待识别垂直文本行的合法性进行判断。
8.一种垂直文本行识别装置,其特征在于,包括:
获取模块,用于获取待识别垂直文本行,其中,所述待识别垂直文本行中文字的阅读方向垂直与水平方向;
旋转模块,用于将所述待识别垂直文本行向预设的第一方向旋转预设的角度,获得旋转后的待识别垂直文本行;
分割模块,用于通过预设的文本分割模型对所述旋转后的待识别垂直文本行进行分割操作,获得至少两个旋转后的文字;
旋转模块,用于将所述至少两个旋转后的文字向预设的第二方向进行旋转预设的角度,获得至少两个水平方向的文字,其中,所述第一方向与所述第二方向相反;
识别模块,用于对所述至少两个水平方向的文字进行拼接操作,获得水平方向的待识别垂直文本行,对所述水平方向的待识别垂直文本行进行识别操作。
9.一种垂直文本行识别设备,其特征在于,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为由所述处理器执行如权利要求1-7任一项所述的垂直文本行识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-7任一项所述的垂直文本行识别方法。
CN202010025426.8A 2020-01-10 2020-01-10 垂直文本行识别方法、装置、设备及计算机可读存储介质 Pending CN113128306A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010025426.8A CN113128306A (zh) 2020-01-10 2020-01-10 垂直文本行识别方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010025426.8A CN113128306A (zh) 2020-01-10 2020-01-10 垂直文本行识别方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113128306A true CN113128306A (zh) 2021-07-16

Family

ID=76771426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010025426.8A Pending CN113128306A (zh) 2020-01-10 2020-01-10 垂直文本行识别方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113128306A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729649A (zh) * 2014-01-14 2014-04-16 三星电子(中国)研发中心 一种图像旋转角度检测方法和装置
CN106407976A (zh) * 2016-08-30 2017-02-15 百度在线网络技术(北京)有限公司 图像字符识别模型生成和竖列字符图像识别方法和装置
CN108885699A (zh) * 2018-07-11 2018-11-23 深圳前海达闼云端智能科技有限公司 字符识别方法、装置、存储介质及电子设备
CN109255356A (zh) * 2018-07-24 2019-01-22 阿里巴巴集团控股有限公司 一种文字识别方法、装置及计算机可读存储介质
CN109271967A (zh) * 2018-10-16 2019-01-25 腾讯科技(深圳)有限公司 图像中文本的识别方法及装置、电子设备、存储介质
CN109598272A (zh) * 2019-01-11 2019-04-09 北京字节跳动网络技术有限公司 字符行图像的识别方法、装置、设备及介质
CN109934229A (zh) * 2019-03-28 2019-06-25 网易有道信息技术(北京)有限公司 图像处理方法、装置、介质和计算设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729649A (zh) * 2014-01-14 2014-04-16 三星电子(中国)研发中心 一种图像旋转角度检测方法和装置
CN106407976A (zh) * 2016-08-30 2017-02-15 百度在线网络技术(北京)有限公司 图像字符识别模型生成和竖列字符图像识别方法和装置
CN108885699A (zh) * 2018-07-11 2018-11-23 深圳前海达闼云端智能科技有限公司 字符识别方法、装置、存储介质及电子设备
CN109255356A (zh) * 2018-07-24 2019-01-22 阿里巴巴集团控股有限公司 一种文字识别方法、装置及计算机可读存储介质
CN109271967A (zh) * 2018-10-16 2019-01-25 腾讯科技(深圳)有限公司 图像中文本的识别方法及装置、电子设备、存储介质
CN109598272A (zh) * 2019-01-11 2019-04-09 北京字节跳动网络技术有限公司 字符行图像的识别方法、装置、设备及介质
CN109934229A (zh) * 2019-03-28 2019-06-25 网易有道信息技术(北京)有限公司 图像处理方法、装置、介质和计算设备

Similar Documents

Publication Publication Date Title
CN110135411B (zh) 名片识别方法和装置
CN110827247B (zh) 一种识别标签的方法及设备
US9171204B2 (en) Method of perspective correction for devanagari text
US9626555B2 (en) Content-based document image classification
CN111476067A (zh) 图像的文字识别方法、装置、电子设备及可读存储介质
US11893765B2 (en) Method and apparatus for recognizing imaged information-bearing medium, computer device and medium
US20220019834A1 (en) Automatically predicting text in images
CN110717470A (zh) 一种场景识别方法、装置、计算机设备和存储介质
CN113221918B (zh) 目标检测方法、目标检测模型的训练方法及装置
CN112861842A (zh) 基于ocr的案件文本识别方法及电子设备
CN111368632A (zh) 一种签名识别方法及设备
CN112990142B (zh) 一种基于ocr的视频导图生成方法、装置、设备及存储介质
CN113780116A (zh) 发票分类方法、装置、计算机设备和存储介质
CN113887375A (zh) 一种文本识别方法、装置、设备及存储介质
WO2013177240A1 (en) Textual information extraction method using multiple images
CN112749694A (zh) 用于识别图像方向、识别铭牌文字的方法及装置
CN111753812A (zh) 文本识别方法及设备
CN109934185B (zh) 数据处理方法及装置、介质和计算设备
CN113762455A (zh) 检测模型训练方法、单字检测方法、装置、设备及介质
CN111291619A (zh) 一种在线识别理赔单据中文字的方法、装置及客户端
CN113128306A (zh) 垂直文本行识别方法、装置、设备及计算机可读存储介质
CN114821062A (zh) 基于图像分割的商品识别方法及装置
CN114637877A (zh) 标注方法、电子设备及存储介质
CN113807416A (zh) 一种模型训练方法、装置、电子设备以及存储介质
CN112949514A (zh) 一种扫描文档信息处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination