CN113936288A - 倾斜文本方向分类方法、装置、终端设备和可读存储介质 - Google Patents
倾斜文本方向分类方法、装置、终端设备和可读存储介质 Download PDFInfo
- Publication number
- CN113936288A CN113936288A CN202111280859.9A CN202111280859A CN113936288A CN 113936288 A CN113936288 A CN 113936288A CN 202111280859 A CN202111280859 A CN 202111280859A CN 113936288 A CN113936288 A CN 113936288A
- Authority
- CN
- China
- Prior art keywords
- text
- vertex
- direction classification
- bounding box
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
本申请实施例提供一种倾斜文本方向分类方法、装置、终端设备和可读存储介质,该方法包括:将待检测图片输入已训练的倾斜文本检测模型,预测输出所述图片中文本所在区域的文本包围框信息,所述文本包围框信息包括用于包围相应文本串的旋转矩形的两个顶点坐标;选取预设比例数量的文本包围框,并根据所述旋转矩形的两个顶点的坐标按照包围框方向分类算法分别计算所述选取的各个文本包围框的文本方向分类结果;根据各个所述文本方向分类结果确定所述图片的最终文本方向分类。该方法避免了将文本方向判定作为独立功能模块实现,节省了方向分类任务相关的模型参数开销、训练开销、预测开销及后续计算开销等。
Description
技术领域
本申请涉及文本图像处理技术领域,尤其涉及一种倾斜文本方向分类方法、装置、终端设备和可读存储介质。
背景技术
随着智能手机、人工智能、深度学习等领域的快速发展,图像文字识别OCR技术近年来得到广泛应用。人们使用手机拍摄各类包含文字的图像,如单证、票据、文档、试题、自然场景等,利用OCR技术从图像中识别出文字,快捷获取需要的信息。人们用手机拍摄图像具有一定随意性和不规范性,导致图像中文字倾斜的可能性很大,同时图像可能存在方向旋转,进一步影响了图像文字的方向。无论基于传统图像算法还是基于深度学习的文字识别技术都需要获取到正向的文字再进行识别,因此图像文字方向判断或分类是文字识别中重要一环。
现有图像文字方向分类方法通常需要独立的功能模块来支持,以基于深度学习路线的方法为例,即使用独立的文字方向分类模型来单独处理。由于作为独立的功能模块,应用部署时需要额外增加一个环节,计算开销和资源开销更大。
发明内容
本申请实施例提供一种倾斜文本方向分类方法、装置、终端设备和可读存储介质,该方法避免了将文本方向判定作为独立功能模块实现,节省了方向分类任务相关的模型参数开销、训练开销、预测开销及后续计算开销等。
第一方面,本申请实施例提供了一种倾斜文本方向分类方法,包括:
将待检测图片输入已训练的倾斜文本检测模型,预测输出所述图片中文本所在区域的文本包围框信息,所述文本包围框信息包括用于包围相应文本串的旋转矩形的两个顶点坐标;
选取预设比例数量的文本包围框,并根据所述旋转矩形的两个顶点的坐标按照包围框方向分类算法分别计算所述选取的各个文本包围框的文本方向分类结果;
根据各个所述文本方向分类结果确定所述图片的最终文本方向分类。
在一种实施方式中,所述旋转矩形的两个顶点记为第一顶点和第二顶点,其中,所述第一顶点和所述第二顶点分别定义为所述旋转矩形在被包围文本处于转正状态下的左上顶点和右上顶点;所述根据所述旋转矩形的两个顶点的坐标按照包围框方向分类算法分别计算所述选取的各个文本包围框的文本方向分类结果,包括:
利用所述旋转矩形的所述第一顶点和第二顶点的坐标计算所述旋转矩形的倾斜角度;
根据预先定义的多个预设方向及各自对应的指定角度区间,确定所述倾斜角度所在的角度区间,将所述倾斜角度所在的角度区间所对应的预设方向作为所述旋转矩形的方向分类结果。
在一种实施方式中,所述利用所述旋转矩形的第一顶点和第二顶点的坐标计算所述旋转矩形的倾斜角度,包括:
根据所述旋转矩形的第一顶点和第二顶点的坐标按照斜率公式计算得到一个斜率值;
根据所述旋转矩形的第一顶点和第二顶点的横坐标的大小比较结果、及所述第一顶点和第二顶点的纵坐标的大小比较结果,选取对应的角度计算公式;
根据所述斜率值和所述选取的角度计算公式,计算得到所述旋转矩形的倾斜角度。
在一种实施方式中,所述根据所述旋转矩形的第一顶点和第二顶点的横坐标的大小比较结果、及所述第一顶点和第二顶点的纵坐标的大小比较结果,选取对应的角度计算公式,包括:
当第一顶点的横坐标小于第二顶点的横坐标,则选取第一角度计算公式,所述第一角度计算公式为:
θ=arctan(K)*180/π;
其中,θ为所述旋转矩形的倾斜角度;K为斜率值;
当第一顶点的横坐标大于第二顶点的横坐标,且第一顶点的纵坐标小于等于第二顶点的纵坐标,则选取第二角度计算公式,所述第二角度计算公式为:
θ=180°+arctan(K)*180/π;
当第一顶点的横坐标大于第二顶点的横坐标,且第一顶点的纵坐标大于第二顶点的纵坐标,则选取第三角度计算公式,所述第三角度计算公式为:
θ=-180°+arctan(K)*180/π。
在一种实施方式中,所述多个预设方向包括第一方向至第四方向,其中,所述第一方向至所述第四方向各自对应的指定角度区间依次为(-45°,45°]、(45°,135°]、(-180°,-135°]∪(135°,180°]、以及(-135°,-45°]。
在一种实施方式中,所述倾斜文本检测模型的预先训练过程,包括:
获取包含倾斜文本的多张原始图片,并以文本串为单位对每张原始图片中的所有文本区域按照图片中文本被转正的状态下进行包围框标注,得到带标注的多张训练图片;
对所述带标注的多张训练图片按照多个预设方向分类进行旋转数据增广,得到带更新标注的若干增广图片,所述若干增广图片和所述多张训练图片构成训练图像集;
利用所述训练图像集对构建的神经网络模型进行倾斜文本检测训练,并在所述神经网络模型满足预设收敛条件时,停止训练,得到训练好的倾斜文本检测模型。
在一种实施方式中,所述根据各个所述文本方向分类结果确定所述图片的最终文本方向分类,包括:
通过投票机制将所有所述文本方向分类结果中占比最高的一个文本方向分类,作为所述图片的最终文本方向分类。
第二方面,本申请实施例提供了一种倾斜文本方向分类装置,包括:
预测输出模块,用于将待检测图片输入已训练的文本检测模型,预测输出所述图片中各文本所在区域的文本包围框信息,所述文本包围框信息包括用于包围相应文本的旋转矩形的两个顶点坐标;
方向分类计算模块,用于选取预设比例数量的文本包围框,并根据所述旋转矩形的两个顶点的坐标按照包围框方向分类算法分别计算所述选取的各个文本包围框的文本方向分类结果;
方向分类确定模块,用于根据各个所述文本方向分类结果确定所述图片的最终文本方向分类。
第三方面,本申请实施例提供了一种终端设备,所述终端设备包括处理器和存储器,所述存储器存储有计算机程序,所述处理器用于执行所述计算机程序以实施所述的倾斜文本方向分类方法。
第四方面,本申请实施例提供了一种可读存储介质,其存储有计算机程序,所述计算机程序在处理器上执行时,实施所述的倾斜文本方向分类方法。
本申请的实施例具有如下有益效果:
本申请实施例的倾斜文本方向分类方法通过将待检测图片输入已训练的倾斜文本检测模型,预测输出图片中文本所在区域的文本包围框信息,所述文本包围框信息包括用于包围相应文本串的旋转矩形的两个顶点坐标;选取预设比例数量的文本包围框,并根据所述旋转矩形的两个顶点的坐标按照包围框方向分类算法分别计算所述选取的各个文本包围框的文本方向分类结果;根据各个所述文本方向分类结果确定所述图片的最终文本方向分类。该方法基于倾斜文字检测模型的预测结果结合后处理算法可直接实现图像文字方向的分类,避免了将其作为独立功能模块实现,节省了方向分类任务相关的模型参数开销、训练开销、预测开销及后续计算开销等。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例的倾斜文本方向分类方法的一种流程示意图;
图2示出了本申请实施例的倾斜文本方向分类方法的文本检测模型训练的流程示意图;
图3a和图3b分别示出了本申请实施例的倾斜文本方向分类方法的图片中的文本未被转正和被转正后的一种示意图;
图4示出了本申请实施例的倾斜文本方向分类方法的文本标注示意图;
图5示出了本申请实施例的倾斜文本方向分类方法的文本方向分类计算的流程示意图;
图6示出了本申请实施例的倾斜文本方向分类方法的倾斜角度计算的流程示意图;
图7a-图7d分别示出了本申请实施例的四种文本方向分类的示意图;
图8示出了本申请实施例的倾斜文本方向分类装置的结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在下文中,可在本申请的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本申请的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本申请的各种实施例中被清楚地限定。
实施例1
图1所示为本申请实施例的倾斜文本方向分类方法的一种流程示意图。示范性地,该倾斜文本方向分类方法包括:
步骤S110,将待检测图片输入已训练的文本检测模型,预测输出相应文本的文本包围框信息,所述文本包围框信息包括用于包围相应文本的旋转矩形的两个顶点坐标。
其中,上述的文本检测模型主要用于对输入图片中的文本区域进行文本串检测及定位,以输出各个文本串对应的文本包围框信息。本实施例中,该文本包围框信息主要包括用于包围相应文本串的旋转矩形的相应顶点在该图片中的坐标,还可包括该旋转矩形的高度或宽度等,并且这些顶点的坐标会按照一定顺序存储,如顺时针或逆时针等,以方便后续访问。
在一些需要对包含的文本存在倾斜的文本图片进行文本识别等处理,往往需要先确定该文本图片的文本方向,为此,本实施例将直接利用由文本检测模型预测输出的文本包围框信息来直接计算得到该文本图片的文本方向分类,而不需要将得到的文本包围框再输入到额外的文本方向分类模型中,这样可以大大减少计算开销,且计算高效等。
对于上述的文本检测模型,可通过预先训练得到。值得注意的是,本实施例的文本检测模型的训练图片应当与待检测的图片满足独立同分布条件,例如,当该文本检测模型用于票据识别时,其训练图片可以为不同场景下采集的票据图片;或者,当该文本检测模型用于房产证信息识别时,其训练图片也应当为采集的房产证图片等,这样才可以保证能够对未标注的图片中的文本包围框的相应顶点进行准确地预测定位等。
在一种实施方式中,如图2所示,该文本检测模型的训练过程,包括:
步骤S210,获取包含倾斜文本的多张原始图片,并以文本串为单位对每张原始图片中的所有文本区域,按照图片中文本被转正的状态下进行包围框标注,得到带标注的多张训练图片。
本实施例将主要以横向排版的文字为例,图3a所示为一具有倾斜文本串未被转正的原始拍摄图片,可知,这样的角度并不方便用户阅读或计算机进行文字识别等,为此,需要人工将整个图片按照文本为正向的状态进行转正,得到如图3b所示的图片中文本被转正后的状态。
示范性地,对于获取得到的各张原始图片,为了对文本检测模型进行训练,这里将对原始图片中的所有文本进行文本包围框标注。具体地,以文本串为单位,并在文本被转正的状态下按照旋转矩形的形式,通过人工标注或预训练模型半自动标注等方式对图片中每个文本串的旋转矩形的两个顶点及高度等进行标注。
在一种实施方式中,一个文本串的标注信息可存储为(Xtop1,Ytop1,Xtop2,Ytop2,h),如图4所示,(Xtop1,Ytop1)表示在图片中文本被转正的情况下,用于包围该文本串的旋转矩形的左上顶点的横坐标和纵坐标,相应地,(Xtop2,Ytop2)表示该旋转矩形的右上顶点的横坐标和纵坐标。当然,这里的高度h也可以通过对四个顶点均标注并进一步计算得到,这里不作限定。应当理解的是,在判定文本方向分类时,除了可以仅用上述的左上顶点和右上顶点外,也可以采用左下顶点和右下顶点这两个顶点,具体的计算方式类似。本实施例主要以上述的左上顶点和右上顶点为例来进行说明。
步骤S220,对带标注的多张训练图片按照多个预设方向分类进行旋转数据增广,得到带更新标注的若干增广图片,所述若干增广图片和所述多张训练图片构成训练图像集。
由于采集的原始图片数量往往有限,本实施例还将利用带标注的这些训练图片进行数据增广,以保证训练的模型的鲁棒性及检测效果。示范性地,可通过对带标注的训练图片按照预先设定的多个方向分类进行旋转,以得到增广图片。例如,可以是分成两阶段,第一阶段是将带标注的图片进行小角度旋转,例如,可以是在±5度~±10度等范围进行随机旋转,以得到单个方向下的具有不同小角度倾斜的情况;第二阶段则是将单个方向下的小角度倾斜的诸多图片分别按照预定的方向分类进行大角度旋转,如90度、180度和270度等,从而增广得到属于不同方向分类的具有不同倾斜角度的增广图片。其中,在旋转过程中,该图片中的文本的包围框的相应顶点坐标也将依据相应旋转角度而计算并更新。最后,将增广后的图片和带标注的训练图片一起作为训练图像集,以用于文本检测模型的训练。
步骤S230,利用训练图像集对构建的神经网络模型进行倾斜文本检测训练,并在所述神经网络模型满足预设条件时,停止训练,得到训练好的文本检测模型。
在一种实施方式中,上述的神经网络模型可以采用如Faster RCNN、SSD、YOLO系列等网络进行构建,这里不作具体限定。本实施例中,在进行倾斜文本检测过程中,这里主要采用包围框回归的方式来实现,例如,可以是一阶段回归,也可以采用两阶段回归方式等。
其中,上述的预设条件可以根据实际需求来设定,例如,可以是该神经网络模型对应的损失函数的值小于预设阈值,即达到收敛条件等;也可以是迭代次数满足一定次数等,这里不作限定。
可以理解,训练好的文本检测模型可以对未标注的图片中的文本区域进行包围框信息预测,每个文本串通过一个旋转矩形来包围,其中,预测输出的包围框信息将包括用于包围相应文本串的旋转矩形的上述第一顶点和第二顶点,即(Xtop1,Ytop1)和(Xtop2,Ytop2)等。
对于上述步骤S110,示范性地,利用已训练的文本检测模型对输入的目标图片进行文本包围框检测,可输出得到图片中各文本串的包围框信息。之后,利用这些包围框信息来计算对应文本串的文本方向分类。
步骤S120,选取预设比例数量的文本包围框,并根据所述旋转矩形的两个顶点的坐标按照包围框方向分类算法分别计算选取的各个文本包围框的文本方向分类结果。
其中,上述的预设比例数量可以根据实际需求来设定,例如,可以是所有文本包围框数量的80%,90%,若包围框数量较少时,还可以将所有的包围框用于计算。
示范性地,可通过随机选取一定数量的文本包围框,之后再根据预先定义的包围框方向分类算法来计算这些选取的各个文本包围框的文本方向分类。可以理解,在一些情况下,通过选取一定比例的包围框进行计算,可以进一步减少计算开销,提高处理效率。
在一种实施方式中,如图5所示,对于上述的根据所述旋转矩形的两个顶点的坐标按照包围框方向分类算法分别计算选取的各个文本包围框的文本方向分类结果,包括:
子步骤S310,利用对应倾斜文本的旋转矩形的该第一顶点和第二顶点的坐标计算旋转矩形的倾斜角度;子步骤S320,根据预定义的多个预设方向及各自对应的指定角度区间,确定该倾斜角度所在的角度区间,将该倾斜角度所在的角度区间所对应的预设方向作为当前旋转矩形的方向分类结果。
示范性地,如图6所示,对于上述子步骤S310,包括:
子步骤S311,根据所述旋转矩形的第一顶点和第二顶点的坐标按照斜率公式计算得到一个斜率值。
子步骤S312,根据旋转矩形的第一顶点和第二顶点的横坐标的大小比较结果、及第一顶点和第二顶点的纵坐标的大小比较结果,选取对应的角度计算公式。
子步骤S313,根据所述斜率值和选取的角度计算公式,计算得到所述旋转矩形的倾斜角度。
结合图4,根据第一顶点(Xtop1,Ytop1)和第二顶点(Xtop2,Ytop2)的连线,则斜率值K的计算公式为:
于是,若以(Xtop1,Ytop1)为原点,上述两顶点的连线和x轴(经过点(xtop1,ytop1))的夹角θ,即为包围文本串的旋转矩形与X轴之间的夹角。可以理解,由于本实施例中的旋转矩形是沿着文本串被转正时的方向形成的,因此,该旋转矩形与X轴的夹角也体现出文本串的倾斜程度。
在一种实施方式中,在选取对应的角度计算公式时,可采用如下规则:
(1)当第一顶点的横坐标小于第二顶点的横坐标,即满足(Xtop1<Xtop2&Ytop2<=Ytop1)or(Xtop1<Xtop2&Ytop2>=Ytop1),则选取第一角度计算公式。示范性地,该第一角度计算公式为:
θ=arctan(K)*180/π;
其中,θ为该旋转矩形的倾斜角度;K为计算得到的斜率值。
(2)当第一顶点的横坐标大于第二顶点的横坐标,且第一顶点的纵坐标小于等于第二顶点的纵坐标,即满足(xtop2<xtop1&ytop1≤ytop2),则选取第二角度计算公式。示范性地,该第二角度计算公式为:
θ=180°+arctan(K)*180/π。
(3)当第一顶点的横坐标大于第二顶点的横坐标,且第一顶点的纵坐标大于第二顶点的纵坐标,即满足(xtop2<xtop1&ytop1>ytop2),则选取第三角度计算公式。示范性地,该第三角度计算公式为:
θ=-180°+arctan(K)*180/π。
除了上述情况外,若当第一顶点的横坐标等于第二顶点的横坐标,且第一顶点的纵坐标大于第二顶点的纵坐标时,则该旋转矩形的倾斜角度为90°,反之,第一顶点的纵坐标小于第二顶点的纵坐标时,则该旋转矩形的倾斜角度为-90°。
于是,在确定旋转矩形的倾斜角度后,进一步判定文本方向分类。
本实施例中,上述的多个预设方向可包括四个方向,分别为第一方向至第四方向,而且这四个方向能够覆盖在图片中建立的坐标系中的全部角度。例如,在一种实施方式中,这四个方向各自对应的角度区间的定义如下表1所示。
表1
其中,上述的第一方向又称正向,其对应的指定角度区间为(-45°,45°];第二方向又称右向,其对应的指定角度区间为(45°,135°];第三方向又称倒向,其对应的指定角度区间为(-180°,-135°]∪(135°,180°];第四方向又称左向,其对应的指定角度区间为(-135°,-45°]。可以理解,当判定为上述方向中的任意一种时,可根据后续的操作来进行不同的处理。
例如,以后续进行文本识别为例,若方向分类判定为正向,如图7a所示,则此时不需要进行矩形旋转,便可直接输入至文本识别模型中进行文本识别。若判定为右向,如图7b所示,则需要对当前的文本图片进行整体逆时针旋转90度,使得图中的文本被转至正向时,再输入模型中进行文本识别。同理,若判定为倒向,如图7c所示,则需要先对该文本图片进行顺时针或逆时针旋转180度,具体可根据实际情况来设定。若判定为右向,如图7d所示,则需要对文本图片进行顺时针旋转90度后再进行文本识别。
步骤S130,根据各文本方向分类结果确定图片的最终文本方向分类。
例如,可通过投票的机制将所有的文本方向分类结果中占比最高的一个文本方向分类,以作为该包含倾斜文本的图片的最终文本方向分类。
例如,对于总数量为15的诸多文本方向分类结果,若存在12个均判定为上述第二方向,而剩余的3个为其他的方向,则此时将占比最多的第二方向确定为该图片的最终方向分类结果。
进一步地,在得到最终文本方向分类后,则可根据实际需求来进行相应后续处理,例如,当需要进行文本识别时,则可对该图片进行顺时针旋转90度,以确保图片的文本方向在正向的情况下,再进行文本识别。当然,还可以用于其他场景,这里不作限定。
本实施例的倾斜文本方向分类方法通过利用深度学习模型对倾斜文本进行文本包围框检测,预测输出的文本包围框以旋转矩形的形式进行表示。进而,利用该旋转矩形的两个顶点的坐标信息来进行文本方向分类的判定,可以进一步得到该图片的最终文本方向分类结果。该方法基于倾斜文字检测模型的预测结果结合后处理算法可直接实现图像文字方向的分类,避免了将其作为独立功能模块(如模型粒度或任务粒度)实现,节省了方向分类任务相关的模型参数开销、训练开销、预测开销及后续计算开销等。
实施例2
请参照图8,基于上述实施例1的方法,本实施例提出一种倾斜文本方向分类装置100,示范性地,该倾斜文本方向分类装置100包括:
预测输出模块110,用于将待检测图片输入已训练的文本检测模型,预测输出所述图片中各文本所在区域的文本包围框信息,所述文本包围框信息包括用于包围相应文本的旋转矩形的两个顶点坐标。
方向分类计算模块120,用于选取预设比例数量的文本包围框,并根据所述旋转矩形的两个顶点的坐标按照包围框方向分类算法分别计算所述选取的各个文本包围框的文本方向分类结果。
方向分类确定模块130,用于根据各个所述文本方向分类结果确定所述图片的最终文本方向分类。
可以理解,本实施例的装置对应于上述实施例1的方法,上述实施例1中的可选项同样适用于本实施例,故在此不再重复描述。
本申请还提供了一种终端设备,例如,计算机等,示范性地,该终端设备包括处理器和存储器,其中,存储器存储有计算机程序,处理器通过运行所述计算机程序,从而使终端设备执行上述的倾斜文本方向分类方法或者上述倾斜文本方向分类装置中的各个模块的功能。
本申请还提供了一种可读存储介质,用于储存上述终端设备中使用的所述计算机程序。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
Claims (10)
1.一种倾斜文本方向分类方法,其特征在于,包括:
将待检测图片输入已训练的倾斜文本检测模型,预测输出所述图片中文本所在区域的文本包围框信息,所述文本包围框信息包括用于包围相应文本串的旋转矩形的两个顶点坐标;
选取预设比例数量的文本包围框,并根据所述旋转矩形的两个顶点的坐标按照包围框方向分类算法分别计算所述选取的各个文本包围框的文本方向分类结果;
根据各个所述文本方向分类结果确定所述图片的最终文本方向分类。
2.根据权利要求1所述的倾斜文本方向分类方法,其特征在于,所述旋转矩形的两个顶点记为第一顶点和第二顶点,其中,所述第一顶点和所述第二顶点分别定义为所述旋转矩形在被包围文本处于转正状态下的左上顶点和右上顶点;所述根据所述旋转矩形的两个顶点的坐标按照包围框方向分类算法分别计算所述选取的各个文本包围框的文本方向分类结果,包括:
利用所述旋转矩形的第一顶点和第二顶点的坐标计算所述旋转矩形的倾斜角度;
根据预先定义的多个预设方向及各自对应的指定角度区间,确定所述倾斜角度所在的角度区间,将所述倾斜角度所在的角度区间所对应的预设方向作为所述旋转矩形的方向分类结果。
3.根据权利要求2所述的倾斜文本方向分类方法,其特征在于,所述利用所述旋转矩形的第一顶点和第二顶点的坐标计算所述旋转矩形的倾斜角度,包括:
根据所述旋转矩形的第一顶点和第二顶点的坐标按照斜率公式计算得到一个斜率值;
根据所述旋转矩形的第一顶点和第二顶点的横坐标的大小比较结果、及所述第一顶点和第二顶点的纵坐标的大小比较结果,选取对应的角度计算公式;
根据所述斜率值和所述选取的角度计算公式,计算得到所述旋转矩形的倾斜角度。
4.根据权利要求3所述的倾斜文本方向分类方法,其特征在于,所述根据所述旋转矩形的第一顶点和第二顶点的横坐标的大小比较结果、及所述第一顶点和第二顶点的纵坐标的大小比较结果,选取对应的角度计算公式,包括:
当所述第一顶点的横坐标小于所述第二顶点的横坐标,则选取第一角度计算公式,所述第一角度计算公式为:
θ=arctan(K)*180/π;
其中,θ为所述旋转矩形的倾斜角度;K为斜率值;
当所述第一顶点的横坐标大于所述第二顶点的横坐标,且所述第一顶点的纵坐标小于等于所述第二顶点的纵坐标,则选取第二角度计算公式,所述第二角度计算公式为:
θ=180°+arctan(K)*180/π;
当所述第一顶点的横坐标大于所述第二顶点的横坐标,且所述第一顶点的纵坐标大于所述第二顶点的纵坐标,则选取第三角度计算公式,所述第三角度计算公式为:
θ=-180°+arctan(K)*180/π。
5.根据权利要求2所述的倾斜文本方向分类方法,其特征在于,所述多个预设方向包括第一方向至第四方向,其中,所述第一方向至所述第四方向各自对应的指定角度区间依次为(-45°,45°]、(45°,135°]、(-180°,-135°]∪(135°,180°]、以及(-135°,-45°]。
6.根据权利要求2所述的倾斜文本方向分类方法,其特征在于,所述倾斜文本检测模型的预先训练过程,包括:
获取包含倾斜文本的多张原始图片,并以文本串为单位对每张原始图片中的所有文本区域,按照图片中文本被转正的状态下进行包围框标注,得到带标注的多张训练图片;
对所述带标注的多张训练图片按照多个预设方向分类进行旋转数据增广,得到带更新标注的若干增广图片,所述若干增广图片和所述多张训练图片构成训练图像集;
利用所述训练图像集对构建的神经网络模型进行倾斜文本检测训练,并在所述神经网络模型满足预设收敛条件时,停止训练,得到训练好的倾斜文本检测模型。
7.根据权利要求1所述的倾斜文本方向分类方法,其特征在于,所述根据各个所述文本方向分类结果确定所述图片的最终文本方向分类,包括:
通过投票机制将所有所述文本方向分类结果中占比最高的一个文本方向分类,作为所述图片的最终文本方向分类。
8.一种倾斜文本方向分类装置,其特征在于,包括:
预测输出模块,用于将待检测图片输入已训练的文本检测模型,预测输出所述图片中各文本所在区域的文本包围框信息,所述文本包围框信息包括用于包围相应文本的旋转矩形的两个顶点坐标;
方向分类计算模块,用于选取预设比例数量的文本包围框,并根据所述旋转矩形的两个顶点的坐标按照包围框方向分类算法分别计算所述选取的各个文本包围框的文本方向分类结果;
方向分类确定模块,用于根据各个所述文本方向分类结果确定所述图片的最终文本方向分类。
9.一种终端设备,其特征在于,所述终端设备包括处理器和存储器,所述存储器存储有计算机程序,所述处理器用于执行所述计算机程序以实施权利要求1-7中任一项所述的倾斜文本方向分类方法。
10.一种可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序在处理器上执行时,实施根据权利要求1-7中任一项所述的倾斜文本方向分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111280859.9A CN113936288A (zh) | 2021-11-01 | 2021-11-01 | 倾斜文本方向分类方法、装置、终端设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111280859.9A CN113936288A (zh) | 2021-11-01 | 2021-11-01 | 倾斜文本方向分类方法、装置、终端设备和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113936288A true CN113936288A (zh) | 2022-01-14 |
Family
ID=79285133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111280859.9A Pending CN113936288A (zh) | 2021-11-01 | 2021-11-01 | 倾斜文本方向分类方法、装置、终端设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113936288A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115457559A (zh) * | 2022-08-19 | 2022-12-09 | 上海通办信息服务有限公司 | 一种将文本及证照类图片智能摆正的方法、装置和设备 |
CN118072299A (zh) * | 2024-04-17 | 2024-05-24 | 福建晨曦信息科技集团股份有限公司 | 证件图像文字内容识别方法、计算机设备及可读存储介质 |
-
2021
- 2021-11-01 CN CN202111280859.9A patent/CN113936288A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115457559A (zh) * | 2022-08-19 | 2022-12-09 | 上海通办信息服务有限公司 | 一种将文本及证照类图片智能摆正的方法、装置和设备 |
CN115457559B (zh) * | 2022-08-19 | 2024-01-16 | 上海通办信息服务有限公司 | 一种将文本及证照类图片智能摆正的方法、装置和设备 |
CN118072299A (zh) * | 2024-04-17 | 2024-05-24 | 福建晨曦信息科技集团股份有限公司 | 证件图像文字内容识别方法、计算机设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9171204B2 (en) | Method of perspective correction for devanagari text | |
CN106156766B (zh) | 文本行分类器的生成方法及装置 | |
US20190266434A1 (en) | Method and device for extracting information from pie chart | |
CN110135424B (zh) | 倾斜文本检测模型训练方法和票证图像文本检测方法 | |
US9141874B2 (en) | Feature extraction and use with a probability density function (PDF) divergence metric | |
US9076242B2 (en) | Automatic correction of skew in natural images and video | |
CN110175609B (zh) | 界面元素检测方法、装置及设备 | |
US20190066333A1 (en) | Information processing apparatus, method for controlling information processing apparatus, and storage medium | |
JP2008217347A (ja) | ナンバープレート認識装置、その制御方法、コンピュータプログラム | |
CN108334805B (zh) | 检测文档阅读顺序的方法和装置 | |
CN113936288A (zh) | 倾斜文本方向分类方法、装置、终端设备和可读存储介质 | |
CN113065536B (zh) | 处理表格的方法、计算设备和计算机可读存储介质 | |
CN112613553B (zh) | 图片样本集生成方法、装置、计算机设备和存储介质 | |
CN111160140A (zh) | 一种图像检测方法及装置 | |
CN110210480B (zh) | 文字识别方法、装置、电子设备和计算机可读存储介质 | |
CN111144215A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN112988557A (zh) | 一种搜索框定位方法、数据采集方法、装置及介质 | |
CN113920434A (zh) | 一种基于目标的图像翻拍检测方法、装置及介质 | |
US9378428B2 (en) | Incomplete patterns | |
JP4550768B2 (ja) | 画像検出方法および画像検出装置 | |
CN113537158B (zh) | 一种图像目标检测方法、装置、设备及存储介质 | |
CN114445807A (zh) | 一种文本区域检测方法及装置 | |
CN114926829A (zh) | 一种证件检测方法、装置、电子设备及存储介质 | |
CN114359352A (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 | |
CN115035129A (zh) | 货物的识别方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |