CN106570500B - 文本行的识别方法及装置、计算设备 - Google Patents

文本行的识别方法及装置、计算设备 Download PDF

Info

Publication number
CN106570500B
CN106570500B CN201610997994.8A CN201610997994A CN106570500B CN 106570500 B CN106570500 B CN 106570500B CN 201610997994 A CN201610997994 A CN 201610997994A CN 106570500 B CN106570500 B CN 106570500B
Authority
CN
China
Prior art keywords
text block
text
sub
character area
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610997994.8A
Other languages
English (en)
Other versions
CN106570500A (zh
Inventor
张文彩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201610997994.8A priority Critical patent/CN106570500B/zh
Publication of CN106570500A publication Critical patent/CN106570500A/zh
Application granted granted Critical
Publication of CN106570500B publication Critical patent/CN106570500B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种文本行的识别方法及装置、计算设备,方法包括:基于文字区域的区域特征信息,确定已识别到的文字区域各自所在的文本块,得到至少一个第一文本块;对每一个第一文本块中的全部文字区域在图片中的中心位置坐标进行直线拟合,得到每一个第一文本块对应的第一拟合直线;基于每一个第一文本块中的每一个中心位置坐标到第一拟合直线的距离,确定每一个第一文本块中的全部中心位置坐标到第一拟合直线的第一平均距离;当基于第一平均距离确定至少一个第一文本块中存在需要被划分的第一文本块时,将需要被划分的第一文本块确定为第二文本块,并将其划分成至少两个文本块。本申请可以准确识别场景文字的文本行,提高文本行识别的鲁棒性。

Description

文本行的识别方法及装置、计算设备
技术领域
本申请涉及图像识别技术领域,尤其涉及一种文本行的识别方法及装置、计算设备。
背景技术
对场景文字进行单文本行分析,属于版面分析方法。现有技术中,基于层次聚类的自下而上的版面分析方法利用单文字区域或连通区域的属性特征信息,计算单文字区域之间的相似度,对符合相似度阈值的两个以上的单文字区域进行逐层次合并,最终识别出文字区域所在的文本行。在进行层次聚类的过程中,需要通过合适的阈值来停止层次聚类,若阈值选取不当,会导致识别到的文本行在整个场景中的定位不准确。
发明内容
有鉴于此,本申请提供一种新的技术方案,可以准确识别场景文字的文本行,提高文本行识别的鲁棒性。
为实现上述目的,本申请提供技术方案如下:
根据本申请的第一方面,提出了一种文本行的识别方法,包括:
基于图片中已识别到的文字区域的区域特征信息,确定所述已识别到的文字区域各自所在的文本块,得到至少一个第一文本块;
对每一个所述第一文本块中的全部文字区域在所述图片中的中心位置坐标进行直线拟合,得到每一个所述第一文本块对应的第一拟合直线;
基于每一个所述第一文本块中的每一个所述中心位置坐标到所述第一拟合直线的距离,确定每一个所述第一文本块中的全部中心位置坐标到所述第一拟合直线的第一平均距离;
当基于所述第一平均距离确定所述至少一个第一文本块中存在需要被划分的第一文本块时,将需要被划分的第一文本块确定为第二文本块,并将所述第二文本块划分成至少两个子文本块和第二子文本块,基于所述至少一个第一文本块中未被划分的第一文本块以及所述至少两个子文本块得到文本行识别结果。
根据本申请的第二方面,提出了一种文本行的识别装置,包括:
第一确定模块,用于基于图片中已识别到的文字区域的区域特征信息,确定所述已识别到的文字区域各自所在的文本块,得到至少一个第一文本块;
直线拟合模块,用于对所述第一确定模块确定的每一个所述第一文本块中的全部文字区域在所述图片中的中心位置坐标进行直线拟合,得到每一个所述第一文本块对应的第一拟合直线;
第二确定模块,用于基于每一个所述第一文本块中的每一个所述中心位置坐标到所述直线拟合模块得到的所述第一拟合直线的距离,确定每一个所述第一文本块中的全部中心位置坐标到所述第一拟合直线的第一平均距离;
第三确定模块,用于当基于所述第二确定模块确定的所述第一平均距离确定所述至少一个第一文本块中存在需要被划分的第一文本块时,将需要被划分的第一文本块确定为第二文本块,并将所述第二文本块划分成至少两个子文本块,基于所述至少一个第一文本块中未被划分的第一文本块以及所述至少两个子文本块得到文本行识别结果。
根据本申请的第三方面,提出了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述第一方面提供的文本行的识别方法。
根据本申请的第四方面,提供一种计算设备,所述计算设备包括:
处理器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器,用于执行上述第一方面提供的文本行的识别方法。
由以上技术方案可见,本申请通过文字区域到拟合直线的平均距离将属于不同的文字区域进行精细划分,由此可避免通过层次聚类的方法选择阈值,降低了文本行识别的复杂度;由于拟合直线的斜率可表示图片上文本行的方向,因此通过拟合直线可识别出各种方向的文本行,例如,横向、纵向以及倾斜方向等,进而提高了场景文字及普通印刷文本中的单文本行识别的鲁棒性。
附图说明
图1A示出了根据本发明的一示例性实施例的文本行的识别方法的流程示意图;
图1B示出了图1A所示实施例的文本行的场景图之一;
图1C示出了图1B所示的场景图经过步骤105处理的文本块的示意图;
图1D示出了图1A所示实施例的文本行的场景图之二;
图1E示出了图1D所示实施例的经过步骤105处理的文本块的示意图;
图2A示出了根据本发明的另一示例性实施例的文本行的识别方法的流程示意图;
图2B示出了图2A所示实施例中的第一子文本块和第二子文本块的示意图;
图3示出了根据本发明的再一示例性实施例的文本行的识别方法的流程示意图;
图4A示出了根据本发明的又一示例性实施例的文本行的识别方法的流程示意图;
图4B示出了图4A所示实施例的文本行的场景图;
图4C示出了图4B所示的场景图经过步骤402处理的文本块的示意图;
图4D示出了图4B所示的场景图经过步骤403处理的文本块的示意图;
图5示出了根据本发明的又一示例性实施例的文本行的识别方法的流程示意图;
图6示出了根据本发明的一示例性实施例的文本行的识别装置的结构示意图;
图7示出了根据本发明的另一示例性实施例的文本行的识别装置的结构示意图;
图8示出了根据本发明的再一示例性实施例的文本行的识别装置的结构示意图;
图9示出了根据本发明的一示例性实施例的计算设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
为对本申请进行进一步说明,提供下列实施例:
图1A示出了根据本发明的一示例性实施例的文本行的识别方法的流程示意图,图1B示出了图1A所示实施例的文本行的场景图之一,图1C示出了图1B所示的场景图经过步骤105处理的文本块的示意图,图1D示出了图1A所示实施例的文本行的场景图之二,图1E示出了图1D所示实施例的经过步骤105处理的文本块的示意图;如图1A所示,包括如下步骤:
步骤101,基于图片中已识别到的文字区域的区域特征信息,确定已识别到的文字区域各自所在的文本块,得到至少一个第一文本块;
步骤102,对每一个第一文本块中的全部文字区域在图片中的中心位置坐标进行直线拟合,得到每一个第一文本块对应的第一拟合直线;
步骤103,基于每一个第一文本块中的每一个中心位置坐标到第一拟合直线的距离,确定每一个第一文本块中的全部中心位置坐标到第一拟合直线的第一平均距离;
步骤104,当基于第一平均距离确定至少一个第一文本块中存在需要被划分的第一文本块时,将需要被划分的第一文本块确定为第二文本块,并将第二文本块划分成至少两个子文本块,基于至少一个第一文本块中未被划分的第一文本块以及至少两个子文本块得到文本行识别结果。
在上述步骤101中,在一实施例中,可以通过最大极值稳定区域(maximallystable extremal regions,MSER)分析方法得到过渡区域,对过渡区域进行文字与非文字的分类,得到步骤101所需要的文字区域。
在一实施例中,文字区域的区域特征信息可以包括文字区域在图片中的两个相对的顶角的位置坐标(例如,如图1B所示图片中包含“泰常祥”的矩形框的左上角和右下角的位置坐标)、文字区域的大小相似度sim_size(例如,“泰”所在的矩形框(本申请中所述的一个文字区域)与“常”所在的矩形框(本申请中所述的一个文字区域)之间的大小相似度)和各个文字区域中两个文字区域中的文字部分的色差距离diff_color(例如,“泰”所在的文字区域中的文字部分的颜色与“常”所在的文字区域中的文字部分的颜色之间的差异),对区域特征信息进行归一并加权组合得到图片上的全部文字区域之间的相似度simij,其中,simij表示第个i文字区域ri与第j个文字区域rj之间的相似度,可通过如下式(1)计算得到:
其中,dist_near表示两个相比较的文字区域的矩形框的最近距离、dist_far表示两个相比较的文字区域的矩形框的最远距离,即,dist_near=min(dist_x,dist_y),dist_far=max(dist_x,dist_y),其中,dist_x表示在水平方向上两个相比较的文字区域的矩形框之间的空隙,如果小于0则视为等于0,dist_y表示在竖直方向上两个相比较的文字区域的矩形框之间的空隙,如果小于0则视为等于0,例如,“泰”和“常”所在的文字区域的矩形框,dist_x=小空隙,dist_y=0,k1、k2、k3、k4为加权所采用权重参数,可以通过试验得到或使用有监督的方式得到。
在一实施例中,可基于单链聚类方法,得到相似文字区域对应的第一文本块,例如,图1B所示的“泰常祥”所在的第一文本块、“九天鹏翼展春今日有房”所在的第一文本块以及“万丈虹文斗”所在的第一文本块等,每一个文本块所包含的信息包括第一文本块所在的位置坐标(可以为矩形框上的对角的坐标,例如,左上角和右下角)以及第一文本块包含的文字区域信息。本领域技术人员可以理解的是,图片中所包含的文本块的数量可视具体的图片而定,本申请对文本块的数量不做限制;本领域技术人员还可以理解的是,本申请中所述的“第一文本块”表示第一次通过现有技术粗识别到的文本块,是为了区分后续步骤104中确定的“第二文本块”而命名的,“第一”、“第二”等顺序的表述并不能形成对本申请的限制。
在上述步骤102中,如图1B所示,“泰常祥”所在的第一文本块中包含了“泰”、“常”、“祥”三个文字区域,可对“泰”、“常”、“祥”各自的中心位置坐标进行最小二乘直线拟合,得到横穿在“泰常祥”所在的第一文本块的第一拟合直线l=(K,b),其中,K表示斜率,b表示截距。对图1B所示的其它第一本文块采用“泰常祥”所在的第一文本块相同的方法,得到各个第一文本块对应的第一拟合直线。
在上述步骤103中,如图1B所示,以“泰”、“常”、“祥”所在的第一文本块为例进行示例性说明,计算“泰”所在的文字区域的中心位置坐标C1=(x1,y1)到对应的第一拟合直线l=(K,b)的距离计算“常”所在的文字区域的中心位置坐标C2=(x2,y2)到对应的第一拟合直线线l=(K,b)的距离计算“祥”所在的文字区域的中心位置坐标C3=(x3,y3)到对应的第一拟合直线l=(K,b)的距离则第一平均距离为图1B所示的其它第一文本块中的文字区域各自的第一平均距离可参考“泰常祥”所在的第一文本块的第一平均距离的计算方法,本申请不再详述。
在上述步骤104中,在一实施例中,可将第一平均距离与一个预设阈值进行比较,当该第一平均距离大于该预设阈值时,说明第一文本块中的文字区域整体距离第一拟合直线都较远,第一文本块中的文字区域不够紧凑,可将该种情形的第一文本块确定为需要被划分的第一文本块,该需要被划分的第一文本块被称为第二文本块,例如,图1B所示的“九天鹏翼展春今日有房”所在的第一文本块,其中“九”、“天”、“鹏”以及“春”、“有”、“房”距离第一拟合直线较远,会第一平均距离较大,在此情形下,可确定“九天鹏翼展春今日有房”所在的第一文本块需要被划分,此时“九天鹏翼展春今日有房”所在的第一文本块可称为本申请所述的第二文本块,即,第二文本块表示至少一个第一文本块中需要被划分的文本块。
如图1C所示,当对“九天鹏翼展春今日有房”所在的文本块进行划分后,可得到两个子文本块,即“九天鹏翼展春”所在的子文本块和“今日有房”所在的子文本块。本领域技术人员可以理解的是,图1C仅以两个子文本块进行示例性说明,还可通过本申请的处理将第二文本块划分为三个以上的子文本块,具体可参见下述图4A所示实施例的描述,本实施例先不详述。
如图1D和图1E所示,作为再一示例性场景,通过本实施例可以得到“山”、“西”、“风”、“味”、“小”、“吃”、“家”、“常”、“炒”、“菜”、“米”、“饭”、“面”、“条”、“饺”、“子”所在的第一文本块,该第一文本块对应的第一拟合直线如图1D所示横穿在第一文本块中,当通过本实施例计算出第一平均距离并基于第一平均距离确定该第一文本块需要被划分,则该第一文本块可视为本申请中所述的第二文本块,并将第二文本块划分成图1E所示的“山”、“西”、“风”、“味”、“小”、“吃”所在的子文本块以及“家”、“常”、“炒”、“菜”、“米”、“饭”、“面”、“条”、“饺”、“子”所在的子文本块,其中,该两个子文本块各自对应的拟合直线横穿在各自的子文本块中。
由上述描述可知,本发明实施例通过文字区域到拟合直线的平均距离将属于不同的文字区域进行精细划分,由此可避免通过层次聚类的方法选择阈值,降低了文本行识别的复杂度;由于拟合直线的斜率可表示图片上文本行的方向,因此通过拟合直线可识别出各种方向的文本行,进而提高了场景文字及普通印刷文本中的单文本行识别的鲁棒性。
图2A示出了根据本发明的另一示例性实施例的文本行的识别方法的流程示意图,图2B示出了图2A所示实施例中的第一子文本块和第二子文本块的示意图;本实施例利用本申请实施例提供的上述方法,以如何将第二文本块划分为至少两个子文本块为例并结合图1B-图1E进行示例性说明,如图2A所示,包括如下步骤:
步骤201,当将至少一个第一文本块中存在需要被划分的第一文本块确定第二文本块时,确定第二文本块中的全部文字区域各自对应的中心位置坐标与第二文本块对应的拟合直线之间的第一相对位置;
步骤202,基于第一相对位置将第二文本块划分为第一子文本块和第二子文本块,其中,第一子文本块的中心位置坐标位于第二文本块对应的拟合直线的一侧,第二子文本块的中心位置坐标位于第二文本块对应的拟合直线的另一侧;
步骤203,基于第一子文本块和第二子文本块各自包含的文字区域的中心位置坐标到第一子文本块和所述第二子文本块各自拟合直线的平均距离,将第二文本块划分为至少两个子文本块。
在上述步骤201中,当第一平均距离大于一个预设阈值th时,可确定第二文本块中的全部文字区域的各自对应的中心位置坐标与第二文本块对应的拟合直线之间的第一相对位置,如图1B所示,当通过上述图1A所示实施例的步骤104将“九天鹏翼展春今日有房”所在的第一文本块确定为第二文本块后,可确定第二本文块中的“九”、“天”、“鹏”、“翼”、“展”、“春”、“今”、“日”、“有”、“房”各自所在的文字区域的中心位置坐标与图1B所示的斜穿“九天鹏翼展春今日有房”所在的第二文本块的拟合直线的相对位置,例如通过下述式(2)计算得到“九”、“天”、“鹏”、“翼”位于拟合直线的上方,“展”、“春”、“今”、“日”、“有”、“房”位于拟合直线的下方,式(2)如下:
其中,rb1表示第一子文本块,rb2表示第二子文本块,rik表示图片中的编号为i的第二文本块中的第k个文字区域,Ki表示编号为i的第二文本块对应的拟合直线的斜率,bi表示编号为i的第二文本块对应的拟合直线的截距,(xik,yik)表示编号为i的第二文本块中的第k个文字区域的中心位置坐标,在图1B所示的场景图中,编号为i的第二文本块为“九”、“天”、“鹏”、“翼”、“展”、“春”、“今”、“日”、“有”、“房”所在的文本块;在图1D所示的场景图中,第i个文本块为“山”、“西”、“风”、“味”、“小”、“吃”、“家”、“常”、“炒”、“菜”、“米”、“饭”、“面”、“条”、“饺”、“子”所在的文本块。
在上述步骤202中,在图1B所示的场景图中,如图2B所示,基于各个文字区域与拟合直线的第一相对位置,即,“九”、“天”、“鹏”、“翼”各自对应的文字区域的中心位置坐标位于第二文本块对应的拟合直线的一侧,“展”、“春”、“今”、“日”、“有”、“房”各自对应的文字区域的中心位置坐标位于第二文本块对应的拟合直线的另一侧,因此可将“九”、“天”、“鹏”、“翼”分类到一个子文本块(可称为第一子文本块)中,将“展”、“春”、“今”、“日”、“有”、“房”分类到另一个子文本块(可称为第二子文本块)中。
在图1D所示的场景图中,基于各个文字区域与第二文本块对应的拟合直线的第一相对位置,即,“山”、“西”、“风”、“味”、“小”、“吃”各自对应的文字区域的中心位置坐标位于第二文本块对应的拟合直线的一侧,“展”、“春”、“今”、“日”、“有”、“房”各自对应的文字区域的中心位置坐标位于第二文本块对应的拟合直线的另一侧,因此可将“山”、“西”、“风”、“味”、“小”、“吃”分类到一个子文本块可称为第一子文本块)中,将“家”、“常”、“炒”、“菜”、“米”、“饭”、“面”、“条”、“饺”、“子”分类到另一个子文本块(可称为第二子文本块)中。
在上述步骤203中,在一实施例中,可计算得到第一子文本块和第二子文本块各自对应的平均距离,将平均距离小的子文本块作为基准,从另一个子文本块中挑选符合设定条件的文字区域调整到该距离小的子文本块中,例如,如图2B所示,对“九天鹏翼”和“展春今日有房”两个子文本块分别进行直线拟合,得到横跨在“九天鹏翼”和“展春今日有房”两个子文本块中的拟合直线,其中,“九天鹏翼”子文本块对应的拟合直线为L1,“展春今日有房”子文本块对应的拟合直线为L2。计算该两个子文本块中的全部文字区域到各自对应的拟合直线的平均距离,“九天鹏翼”子文本块对应的平均距离小于“展春今日有房”子文本块的平均距离,所以,以“九天鹏翼”子文本块为基准,到“展春今日有房”子文本块中挑选符合设定条件的文字区域。以“展春今日有房”子文本块中的一个文字区域的中心位置坐标为(xi,yi)为例进行说明,若(xi,yi)到L1的距离小于到L2的距离,那么将(xi,yi)对应的文本区域划分到“九天鹏翼”子文本块中,按照上述描述对“展春今日有房”中所有的文字区域做类似处理。经过处理后,即可得到“九天鹏翼展春”和“今日有房”两个子文本块。可选的,还可以对上述“九天鹏翼展春”和“今日有房”两个子文本块进行直线拟合,计算每个子文本块中的文字区域到对应拟合直线的平均距离,当平均距离都小于预设阈值时,停止调整,得到最终的两个子文本块。需要说明的是,图2B仅以将“九天鹏翼展春今日有房”划分为两个子文本块为例进行示例性说明的,在复杂的文本行的场景中,例如,图4B和图4C所示的场景中,可以通过本申请将一个大的文本块划分成多个子文本块,具体描述可以参见下述图4A所示实施例的描述,在此先不详述。
本实施例中,基于第一相对位置先将第二文本块划分为第一子文本块和第二子文本块,再进一步调整第一子文本块和第二子文本块中各自的文字区域,仅将第二文本块中的文字区域参与到子文本块的划分过程中,减少划分子文本块时的计算量;此外,通过对第二文本块中的文字区域进行进一步的划分,可以对图片中的文本块进行精细化划分,提高文本块的识别准确度。
图3示出了根据本发明的再一示例性实施例的文本行的识别方法的流程示意图;本实施例利用本申请实施例提供的上述方法,以如何基于第一子文本块和第二子文本块将第二文本块划分为至少两个子文本块为例并结合图1B-图1E、图2B进行示例性说明,如图3所示,包括如下步骤:
步骤301,根据第一子文本块中包含的文字区域的中心位置坐标进行直线拟合,得到第一子文本块对应的拟合直线;
步骤302,根据第二子文本块中包含的文字区域的中心位置坐标进行直线拟合,得到第二子文本块对应的拟合直线;
步骤303,基于第一子文本块包含的每一个文字区域的中心位置坐标到第一子文本块对应的拟合直线的距离,确定第一子文本块包含的全部中心位置坐标到第一子文本块对应的拟合直线的第二平均距离;
步骤304,基于第二子文本块包含的每一个文字区域的中心位置坐标到第二子文本块对应的拟合直线的距离,确定第二子文本块包含的全部中心位置坐标到第二子文本块对应的拟合直线的第三平均距离;
步骤305,基于第二平均距离和第三平均距离分别与预设阈值之间的关系,将第二文本块划分为至少两个子文本块。
上述步骤301和步骤302中如何计算第一子文本块和第二子文本块各自对应的拟合直线的,可以参照上述图1A所示实施例的相关描述,在此不再详述。
上述步骤303和步骤304中如何计算第一子文本块和第二子文本块各自包含的全部中心位置坐标到各自对应的拟合直线的第二平均距离和第三平均距离的,可以参照上述图1A所示实施例的相关描述,在此不再详述。
上述步骤305的相关描述可以参见下述图4A或者图5所示实施例的描述,在此先不详述。
在一示例性场景中,如图2B所示,基于各个文字区域与拟合直线的相对位置,可将“九”、“天”、“鹏”、“翼”分类到本申请所述的第一子文本块中,将“展”、“春”、“今”、“日”、“有”、“房”分类到本申请所述的第二子文本块中,通过本实施例对第一子文本块和第二子文本块进行调整,可以将第二子文本块中的“展”、“春”调整至第一子文本块中,从而得到两个子文本块,其中一个子文本块中包含“九”、“天”、“鹏”、“翼”、“展”、“春”对应的文字区域,另一个子文本块中包含“今”、“日”、“有”、“房”对应的文字区域。
本领域技术人员可以理解的是,图1C中所示出第一子文本块和第二子文本块以及第一子文本块和第二子文本块各自对应的拟合直线,通过上述图1A所示实施例拟合直线的计算方法以及平均距离的计算方法,即可计算出第一子文本块和第二子文本块各自对应的拟合直线以及各自的平均距离,本实施例不再详述。
需要说明的是,上述步骤303可执行在步骤302之前,也可以执行在步骤302之后,本申请对步骤302和步骤303的先后顺序不做限制。
本实施例中,通过第二文本块中的每一个子文本块各自包含的全部中心位置坐标到第二拟合直线的第二平均距离以及第三平均距离,基于第二平均距离、第三平均距离与预设阈值的关系,将第二文本块划分为至少两个子文本块,可以确保每一个子文本块中所包含的文字区域真正属于该子文本块,避免将文字区域划分到错误的子文本块中。
图4A示出了根据本发明的又一示例性实施例的文本行的识别方法的流程示意图,图4B示出了图4A所示实施例的文本行的场景图,图4C示出了图4B所示的场景图经过步骤402处理的文本块的示意图,图4D示出了图4B所示的场景图经过步骤403处理的文本块的示意图;本实施例利用本申请实施例提供的上述方法,以如何基于第二平均距离、第三平均距离与预设阈值的大小关系将第二文本块划分为至少两个子文本块为例进行示例性说明,如图4A所示,包括如下步骤:
步骤401,将第二平均距离与第三平均距离分别与预设阈值进行比较,得到比较结果;
步骤402,若比较结果表示第二平均距离和第三平均距离满足均大于预设阈值的情形,根据第二文本块的阅读顺序将第二文本块划分为多个文字区域块;
步骤403,基于多个文字区域块各自对应的拟合直线的位置关系,将多个文字区域块合并为至少两个子文本块。
在上述步骤401中,在一实施例中,预设阈值可以根据试验统计的方式来确定,本申请对此不做详述。
在上述步骤402中,若第二平均距离和第三平均距离均两者大于该预设阈值,说明第一子文本块和第二子文本块所形成的整体是较为拥挤的多行文本,因此可将第一子文本块和第二子文本块仍视为一个大的第二文本块,例如图4B所示的“告示”的标题和正文部分。本领域技术人员可以理解的是,由于现有技术中关于文本块与非文本块的识别具有误差,因此会丢掉图片中的一些文字区域,也可能会引入一些非文字区域的噪声,因此图4B所示的文字区域并未完全识别出,例如,图4B中的“示”并未通过图1A所示实施例的步骤101识别出。
在一实施例中,可找出第二文本块中的各个文字区域的最近邻的文字区域,根据文字区域与最近邻的文字区域的位置关系(偏横向或者偏纵向),统计偏横向的文字区域的数量和偏纵向的文字区域的数量,以数量较多的方向为该第二文本块的阅读顺序。
在一实施例中,计算第二文本块中的每一个文字区域的中心位置坐标与该每一个文字区域最近邻的文字区域的相对位置关系;根据相对位置关系确定第二文本块的阅读顺序;根据阅读顺序确定第二文本块中的每一个文字区域在阅读顺序方向的最近邻的文字区域;将相互近邻的文字区域形成集合,得到多个文字区域块。例如,图4C所示的“告示”的正文部分,多个文字区域块例如包括“敬告”、“大市民”、“因北京地铁十”、“线正在进行施工”等等文字区域块。
在上述步骤403中,在一实施例中,对多个文字区域块中的每一个文字区域块所包含的文字区域的中心位置坐标进行直线拟合,得到多组拟合直线,如图4C所示横穿在“敬告”文字区域块中的直线,由此可得到图4C所示的每一个文字区域块对应的拟合直线;基于多个文字区域块各自对应的拟合直线之间的夹角,或者,多个文字区域块中的文字区域的中心位置坐标到拟合直线的距离,对多个文字区域块进行合并,将第二文本块划分为多个子文本块,例如,对于文字区域块“敬告”和文字区域块“大市民”,计算该两个文字区域块的拟合直线,确定该两条拟合直线之间的夹角,当夹角小于一个预设角度时,或者,“大市民”中的文字区域的中心位置坐标到“敬告”对应的拟合直线的距离小于一个距离阈值时,可确定“大市民”与“敬告”处于同一个更大的文本块中,由此得到4D所示的“敬告广大市民”对应的一行文本块,类似的,对“告示”的正文部分进行与上述类似的处理,得到“告示”的正文部分的每一行文字对应的子文本块。
本实施例中,基于第二文本块的阅读顺序将第二文本块划分为多个文字区域块,基于多个文字区域块各自对应的拟合直线的位置关系,将多个文字区域块划分为至少两个子文本块,从而能够准确识别出较为拥挤的多行文本。
下面对第二平均距离和第三平均距离均小于预设阈值,或者,第二平均距离和第三平均距离中的其中一个大于预设阈值并且另一个小于预设阈值的情形下如何将第二文本块划分为至少两个子文本块进行描述。
在一种实现方式中,可通过如下步骤实现:
基于第二平均距离和第三平均距离,从第一子文本块和第二子文本块中确定基准文本块和非基准文本块;
基于非基准文本块中的文字区域的数量、非基准文本块中文本区域的中心位置坐标到基准文本块对应的拟合直线的距离,确定是否需要将非基准文本块中的文字区域调整至基准本文本块。
具体地,基于第二平均距离和第三平均距离,从第一子文本块和第二子文本块中确定为基准文本块和非基准文本块,包括:
确定第二平均距离和第三平均距离中的较小的平均距离对应的子文本块中所包含的文字区域的数量;
当较小的平均距离对应的子文本块中所包含的文字区域的数量符合第一预设条件时,将较小的平均距离对应的子文本块确定为基准文本块,并且将另一个平均距离对应的子文本块确定为非基准文本块。
在一实施例中,第一预设条件为较小的平均距离对应的子文本块中所包含的文字区域的数量大于2。
在一实施例中,基于非基准文本块中文本区域的中心位置坐标到基准文本块对应的拟合直线的距离以及非基准文本块中的文字区域的数量,确定是否需要将非基准文本块中的文字区域调整至基准本文本块,包括:
当非基准文本块中的文字区域的数量符合第一预设条件时,基于非基准文本块中文本区域的中心位置坐标到基准文本块对应的拟合直线的距离与预设阈值之间的大小关系,确定是否需要将非基准文本块中的文字区域调整至基准本文本块;
当非基准文本块中的文字区域的数量符合第二预设条件时,基于非基准文本块中文本区域的中心位置坐标到基准文本块对应的拟合直线的距离与预设阈值之间的大小关系,确定是否需要将非基准文本块中的文字区域调整至基准本文本块。
在一实施例中,第二预设条件为较小的平均距离对应的子文本块中所包含的文字区域的数量等于2。
下面结合图5对上述描述进行场景化具体说明。
图5示出了根据本发明的又一示例性实施例的文本行的识别方法的流程示意图;本实施例利用本申请实施例提供的上述方法,以如何基于第二平均距离、第三平均距离与预设阈值的大小关系将第二文本块划分为至少两个子文本块为例并结合图1B-图1E进行示例性说明,如图5所示,包括如下步骤:
步骤501,将第二平均距离与第三平均距离分别与预设阈值进行比较,得到比较结果;
步骤502,若比较结果表示第二平均距离和第三平均距离不满足均大于预设阈值的情形,确定第二平均距离和第三平均距离中的较小的平均距离对应的子文本块中所包含的文字区域的数量;
步骤503,若较小的平均距离对应的子文本块中所包含的文字区域的数量大于2,将较小的平均距离对应的子文本块确定为基准文本块,将另一个平均距离对应的子文本块确定为非基准文本块;
步骤504,确定非基准文本块中的文字区域的数量,当非基准文本块中的文字区域的数量为2时,执行步骤505,当非基准文本块中的文字区域的数量大于2时,执行步骤506;
步骤505,当非基准文本块中的文字区域的数量为2时,基于非基准文本块中文本区域的中心位置坐标到基准文本块对应的拟合直线的距离与预设阈值之间的大小关系,确定是否需要将非基准文本块中的文字区域调整至基准本文本块;
步骤506,当非基准文本块中的文字区域的数量大于2时,基于非基准文本块中文本区域的中心位置到基准文本块对应的拟合直线的距离与到非基准文本块对应的拟合直线的距离的大小关系,确定是否需要将非基准文本块中的文字区域调整至基准本文本块。
在一示例性场景中,如图1B所示,第一子文本块中可包含“九”、“天”、“鹏”、“翼”,第二子文本块可包含“展”、“春”、“今”、“日”、“有”、“房”,其中,第一子文本块中的文字区域的中心位置坐标到第二文本块对应拟合直线的平均距离小于预设阈值,第二子文本块中的文字区域的中心位置坐标到第二文本块对应拟合直线的平均距离大于预设阈值,即,第二平均距离小于第三平均距离,并且,第二子文本块所包含的文字区域的数量为6,6大于2,此时可将第二子文本块中的“展”、“春”、“今”、“日”、“有”、“房”各自的中心位置坐标到第一子文本块对应的拟合直线的距离与“展”、“春”、“今”、“日”、“有”、“房”各自的中心位置坐标到第二子字文本块对应的拟合直线的距离的大小关系,例如,“展”、“春”到基准文本块对应的拟合直线的距离小于到非基准文本块对应的拟合直线的距离,则可将“展”、“春”调整到基准文本块中,“今”、“日”、“有”、“房”到基准文本块对应的拟合直线的距离大于到非基准文本块对应的拟合直线的距离,将“今”、“日”、“有”、“房”仍保留在非基准文本块中,从而得到最终的两个子文本块,即,包含“九”、“天”、“鹏”、“翼”、“展”、“春”的子文本块,包含“今”、“日”、“有”、“房”的子文本块。
在另一示例性场景中,如图1D所示,第二文本块中包含“山”、“西”、“风”、“味”、“小”、“吃”、“家”、“常”、“炒”、“菜”、“米”、“饭”、“面”、“条”、“饺”、“子”,根据第二文本块对应的拟合直线与文字区域之间的第一相对位置,可将含“山”、“西”、“风”、“味”、“小”、“吃”分类到第一子文本块中,将“家”、“常”、“炒”、“菜”、“米”、“饭”、“面”、“条”、“饺”、“子”分类到第二子文本块中,其中,第一子文本块中的文字区域的中心位置坐标到第二文本块对应拟合直线的平均距离小于预设阈值,第二子文本块中的文字区域的中心位置坐标到第二文本块对应拟合直线的平均距离小于预设阈值,此时需要将平均距离更小的子文本块作为基准文本块,由于第二子文本块中的文字区域的中心位置坐标到第二文本块对应拟合直线的距离小于第一子文本块中的文字区域的中心位置坐标到第二文本块对应拟合直线的距离,因此可将“常”、“炒”、“菜”、“米”、“饭”、“面”、“条”、“饺”、“子”所在的第二子文本块确定为基准文本块,将第一子文本块确定为非基准文本块,基于上述图1B所示的类似描述,对第一子文本块和第二子文本块进行调整,得到最终的两个子文本块,例如,包含“山”、“西”、“风”、“味”、“小”、“吃”的子文本块,包含“家”、“常”、“炒”、“菜”、“米”、“饭”、“面”、“条”、“饺”、“子”的子文本块。
需要说明的是,在通过上述步骤506将非基准文本块中的部分文字区域调整至基准本文本块后,若非基准文本块对应的平均距离大于预设阈值并且将非基准文本块中的部分文字区域调整至基准本文本块后,还可以将非基准文本块中的剩余文字区域确定为第三文本块,并基于第三文本块中的全部中心位置坐标拟合出所述第三文本块对应的拟合直线;确定第三文本块中的全部中心位置坐标到该第三文本块对应的拟合直线的第四平均距离;基于所述第四平均距离与所述预设阈值之间的大小关系,确定是否需要对所述第三文本块进行划分。具体地,如果第四平均距离大于预设阈值,表示需要划分第三文本块;如果第四平均距离小于预设阈值,表示不需要划分第三文本块,此时可得到最终的识别结果。当需要划分第三文本块时,可基于上述对第二文本块的划分方法,对第三文本块进行递归划分,直至得到最终文本块的识别结果。
还需要说明的是,当非基准文本块中的文字区域的数量大于或者等于2时,基于两点确定一线的原理,通过两个以上的文字区域的中心位置坐标可拟合出该非基准文本块对应的拟合直线,而当非基准文本块中的文字区域的数量小于2时,表示非基准文本块中仅包含一个文字区域,该种情形下非基准文本块不存在对应的拟合直线,为了提高文本行的识别效率,本申请可忽略该种情形。
本实施例中,由于综合考虑了非基准文本块中的文字区域的数量和非基准文本块中文本区域的中心位置坐标到基准文本块对应的拟合直线的距离的因素,可以将文字区域调整到更适合的子文本块中,从而确保识别得到的子文本块更能体现真实的文本行。
图6为根据本发明的一示例性实施例的文本行的识别装置的结构示意图;如图6所示,该文本行的识别装置可以包括:第一确定模块61、直线拟合模块62、第二确定模块63、第三确定模块64。其中:
第一确定模块61,用于基于图片中已识别到的文字区域的区域特征信息,确定已识别到的文字区域各自所在的文本块,得到至少一个第一文本块;
直线拟合模块62,用于对第一确定模块61确定的每一个第一文本块中的全部文字区域在图片中的中心位置坐标进行直线拟合,得到每一个第一文本块对应的第一拟合直线;
第二确定模块63,用于基于每一个第一文本块中的每一个中心位置坐标到直线拟合模块62得到的第一拟合直线的距离,确定每一个第一文本块中的全部中心位置坐标到第一拟合直线的第一平均距离;
文本块划分模块64,用于当基于第二确定模块63确定的第一平均距离确定至少一个第一文本块中存在需要被划分的第一文本块时,将该需要被划分的第一文本块确定为第二文本块,并将该第二文本块划分成至少两个子文本块,基于至少一个第一文本块中未被划分的第一文本块以及至少两个子文本块得到文本行识别结果。
图7示出了根据本发明的另一示例性实施例的文本行的识别装置的结构示意图,如图7所示,在上述图6所示实施例的基础上,文本块划分模块64可包括:
第一确定子模块641,用于确定第二文本块中的全部文字区域各自对应的中心位置坐标与第二文本块对应的拟合直线之间的第一相对位置;
划分子模块642,用于基于第一确定子模块641确定的第一相对位置将第二文本块划分为第一子文本块和第二子文本块,第一子文本块的中心位置坐标位于第二文本块对应的拟合直线的一侧,第二子文本块的中心位置坐标位于第二文本块对应的拟合直线的另一侧;
第二确定子模块643,用于基于第一子文本块和第二子文本块各自包含的文字区域的中心位置坐标到第一子文本块和第二子文本块各自拟合直线的平均距离,将第二文本块划分为至少两个子文本块。
在一实施例中,第二确定子模块643具体用于:
根据第一子文本块中包含的文字区域的中心位置坐标进行直线拟合,得到第一子文本块对应的拟合直线;
根据第二子文本块中包含的文字区域的中心位置坐标进行直线拟合,得到第二子文本块对应的拟合直线;
基于第一子文本块包含的每一个文字区域的中心位置坐标到第一子文本块对应的拟合直线的距离,确定第一子文本块包含的全部中心位置坐标到第一子文本块对应的拟合直线的第二平均距离;
基于第二子文本块包含的每一个文字区域的中心位置坐标到第二子文本块对应的拟合直线的距离,确定第二子文本块包含的全部中心位置坐标到第二子文本块对应的拟合直线的第三平均距离;
基于第二平均距离和第三平均距离分别与预设阈值之间的关系,将第二文本块划分为至少两个子文本块。
在一实施例中,第二确定子模块643具体还用于:
对于第二平均距离和第三平均距离满足均大于预设阈值的情形,根据第二文本块的阅读顺序将第二文本块划分为多个文字区域块;
基于多个文字区域块各自对应的拟合直线的位置关系,将多个文字区域块合并为至少两个子文本块。
在一实施例中,第二确定子模块643具体还用于:
确定第二文本块中的每一个文字区域的最近邻的文字区域;
根据每一个文字区域与对应的最近邻的文字区域的第二相对位置,统计偏第一方向的文字区域的数量和偏第二方向的文字区域的数量;
将偏第一方向的文字区域的数量和偏第二方向的文字区域的数量中数量较大的方向确定为第二文本块的阅读顺序;
根据阅读顺序确定第二文本块中的每一个文字区域在阅读顺序方向最近邻的文字区域;
将相互近邻的文字区域形成集合,得到多个文字区域块。
在一实施例中,第二确定子模块643具体还用于:
对多个文字区域块中的每一个文字区域块所包含的文字区域的中心位置坐标进行直线拟合,得到多个文字区域块各自对应的拟合直线;
基于多个文字区域块各自对应的拟合直线之间的夹角,或者,基于多个文字区域块中的文字区域的中心位置坐标到拟合直线的距离,对多个文字区域块进行合并,将第二文本块划分为至少两个子文本块。
在一实施例中,第二确定子模块643具体用于:
对于第二平均距离和第三平均距离不满足均大于预设阈值的情形,基于第二平均距离和第三平均距离,从第一子文本块和第二子文本块中确定基准文本块和非基准文本块;
基于非基准文本块中的文字区域的数量、非基准文本块中文本区域的中心位置坐标到基准文本块对应的拟合直线的距离,确定是否需要将非基准文本块中的文字区域调整至基准本文本块。
在一实施例中,第二确定子模块643具体用于:
确定第二平均距离和第三平均距离中的较小的平均距离对应的子文本块中所包含的文字区域的数量;
当较小的平均距离对应的子文本块中所包含的文字区域的数量符合第一预设条件时,将较小的平均距离对应的子文本块确定为基准文本块,并且将另一个平均距离对应的子文本块确定为非基准文本块。
在一实施例中,第一预设条件为较小的平均距离对应的子文本块中所包含的文字区域的数量大于2。
在一实施例中,第二确定子模块643具体用于:
当非基准文本块中的文字区域的数量符合第一预设条件时,基于非基准文本块中文本区域的中心位置坐标到基准文本块对应的拟合直线的距离与预设阈值之间的大小关系,确定是否需要将非基准文本块中的文字区域调整至基准本文本块;
当非基准文本块中的文字区域的数量符合第二预设条件时,基于非基准文本块中文本区域的中心位置坐标到基准文本块对应的拟合直线的距离与预设阈值之间的大小关系,确定是否需要将非基准文本块中的文字区域调整至基准本文本块。
在一实施例中,第二预设条件为较小的平均距离对应的子文本块中所包含的文字区域的数量等于2。
在一实施例中,第二确定子模块643具体还用于:
若非基准文本块对应的平均距离大于预设阈值并且将非基准文本块中的部分文字区域调整至基准本文本块后,将非基准文本块中的剩余文字区域确定为第三文本块,并基于第三文本块中的全部中心位置坐标拟合出第三文本块对应的拟合直线;
确定第三文本块中的全部中心位置坐标到该第三文本块对应的拟合直线的第四平均距离;
基于第四平均距离与预设阈值之间的大小关系,确定是否需要对第三文本块进行划分。
图8示出了根据本发明的再一示例性实施例的文本行的识别装置的结构示意图,在上述图6或者图7所示实施例的基础上,第一确定模块61包括:
处理子模块611,用于基于图片中已识别到的文字区域的区域特征信息,对区域特征信息进行归一化并加权组合,得到文字区域之间的相似度信息;
计算子模块612,用于基于单链聚类方法,根据处理子模块611得到的文字区域之间的相似度信息,计算得到至少一个第一文本块。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本申请还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图1A-图5任一实施例提供的文本行的识别方法。
图9示出了根据本发明的一示例性实施例的计算设备的结构示意图;对应于上述的文本行的识别方法,本申请还提出了图9所示的根据本发明的一示例性实施例的计算设备的示意结构图。请参考图9,在硬件层面,该计算设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成文本行的识别装置。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (13)

1.一种文本行的识别方法,其特征在于,所述方法包括:
基于图片中已识别到的文字区域的区域特征信息,确定所述已识别到的文字区域各自所在的文本块,得到至少一个第一文本块;
对每一个所述第一文本块中的全部文字区域在所述图片中的中心位置坐标进行直线拟合,得到每一个所述第一文本块对应的第一拟合直线;
基于每一个所述第一文本块中的每一个所述中心位置坐标到所述第一拟合直线的距离,确定每一个所述第一文本块中的全部中心位置坐标到所述第一拟合直线的第一平均距离;
当基于所述第一平均距离确定所述至少一个第一文本块中存在需要被划分的第一文本块时,将所述需要被划分的第一文本块确定为第二文本块,并将第二文本块划分成至少两个子文本块,基于所述至少一个第一文本块中未被划分的第一文本块以及所述至少两个子文本块得到文本行识别结果;
所述将所述第二文本块划分成至少两个子文本块,包括:
确定所述第二文本块中的全部文字区域各自对应的中心位置坐标与所述第二文本块对应的拟合直线之间的第一相对位置;
基于所述第一相对位置将所述第二文本块划分为第一子文本块和第二子文本块,所述第一子文本块的中心位置坐标位于所述第二文本块对应的拟合直线的一侧,所述第二子文本块的中心位置坐标位于所述第二文本块对应的拟合直线的另一侧;
基于所述第一子文本块和所述第二子文本块各自包含的文字区域的中心位置坐标到所述第一子文本块和所述第二子文本块各自拟合直线的平均距离,将所述第二文本块划分为至少两个子文本块;
所述基于所述第一子文本块和所述第二子文本块各自包含的文字区域的中心位置坐标到所述第一子文本块和所述第二子文本块各自拟合直线的平均距离,将所述第二文本块划分为至少两个子文本块,包括:
根据所述第一子文本块中包含的文字区域的中心位置坐标进行直线拟合,得到所述第一子文本块对应的拟合直线;
根据所述第二子文本块中包含的文字区域的中心位置坐标进行直线拟合,得到所述第二子文本块对应的拟合直线;
基于所述第一子文本块包含的每一个文字区域的中心位置坐标到所述第一子文本块对应的拟合直线的距离,确定所述第一子文本块包含的全部中心位置坐标到所述第一子文本块对应的拟合直线的第二平均距离;
基于所述第二子文本块包含的每一个文字区域的中心位置坐标到所述第二子文本块对应的拟合直线的距离,确定所述第二子文本块包含的全部中心位置坐标到所述第二子文本块对应的拟合直线的第三平均距离;
基于所述第二平均距离和所述第三平均距离分别与预设阈值之间的关系,将所述第二文本块划分为至少两个子文本块。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第二平均距离和所述第三平均距离分别与预设阈值之间的关系,将所述第二文本块划分为至少两个子文本块,包括:
对于所述第二平均距离和所述第三平均距离满足均大于预设阈值的情形,根据所述第二文本块的阅读顺序将所述第二文本块划分为多个文字区域块;
基于所述多个文字区域块各自对应的拟合直线的位置关系,将所述多个文字区域块合并为至少两个子文本块。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第二文本块的阅读顺序将所述第二文本块划分为多个文字区域块,包括:
确定所述第二文本块中的每一个文字区域的最近邻的文字区域;
根据所述每一个文字区域与对应的最近邻的文字区域的第二相对位置,统计偏第一方向的文字区域的数量和偏第二方向的文字区域的数量;
将所述偏第一方向的文字区域的数量和所述偏第二方向的文字区域的数量中数量较大的方向确定为所述第二文本块的阅读顺序;
根据所述阅读顺序确定所述第二文本块中的每一个文字区域在所述阅读顺序方向最近邻的文字区域;
将相互近邻的文字区域形成集合,得到多个文字区域块。
4.根据权利要求2所述的方法,其特征在于,所述基于所述多个文字区域块各自对应的拟合直线的位置关系,将所述多个文字区域块划分为至少两个子文本块,包括:
对所述多个文字区域块中的每一个文字区域块所包含的文字区域的中心位置坐标进行直线拟合,得到所述多个文字区域块各自对应的拟合直线;
基于所述多个文字区域块各自对应的拟合直线之间的夹角,或者,基于所述多个文字区域块中的文字区域的中心位置坐标到拟合直线的距离,对所述多个文字区域块进行合并,将所述第二文本块划分为至少两个子文本块。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第二平均距离和所述第三平均距离分别与预设阈值之间的关系,将所述第二文本块划分为至少两个子文本块,包括:
对于所述第二平均距离和所述第三平均距离不满足均大于预设阈值的情形,基于所述第二平均距离和所述第三平均距离,从所述第一子文本块和所述第二子文本块中确定基准文本块和非基准文本块;
基于所述非基准文本块中的文字区域的数量、所述非基准文本块中文本区域的中心位置坐标到所述基准文本块对应的拟合直线的距离,确定是否需要将所述非基准文本块中的文字区域调整至所述基准文本块。
6.根据权利要求5所述的方法,其特征在于,所述基于所述第二平均距离和所述第三平均距离,从所述第一子文本块和所述第二子文本块中确定为基准文本块和非基准文本块,包括:
确定所述第二平均距离和所述第三平均距离中的较小的平均距离对应的子文本块中所包含的文字区域的数量;
当所述较小的平均距离对应的子文本块中所包含的文字区域的数量符合第一预设条件时,将所述较小的平均距离对应的子文本块确定为基准文本块,并且将另一个平均距离对应的子文本块确定为非基准文本块。
7.根据权利要求6所述的方法,其特征在于,所述第一预设条件为所述较小的平均距离对应的子文本块中所包含的文字区域的数量大于2。
8.根据权利要求6所述的方法,其特征在于,所述基于所述非基准文本块中文本区域的中心位置坐标到所述基准文本块对应的拟合直线的距离以及所述非基准文本块中的文字区域的数量,确定是否需要将所述非基准文本块中的文字区域调整至所述基准文本块,包括:
当所述非基准文本块中的文字区域的数量符合第一预设条件时,基于所述非基准文本块中文本区域的中心位置坐标到所述基准文本块对应的拟合直线的距离与所述预设阈值之间的大小关系,确定是否需要将所述非基准文本块中的文字区域调整至所述基准文本块;
当所述非基准文本块中的文字区域的数量符合第二预设条件时,基于所述非基准文本块中文本区域的中心位置坐标到所述基准文本块对应的拟合直线的距离与所述预设阈值之间的大小关系,确定是否需要将所述非基准文本块中的文字区域调整至所述基准文本块。
9.根据权利要求8所述的方法,其特征在于,所述第二预设条件为所述较小的平均距离对应的子文本块中所包含的文字区域的数量等于2。
10.根据权利要求5所述的方法,其特征在于,所述方法还包括:
若所述非基准文本块对应的平均距离大于所述预设阈值并且将所述非基准文本块中的部分文字区域调整至所述基准文本块后,将所述非基准文本块中的剩余文字区域确定为第三文本块,并基于所述第三文本块中的全部中心位置坐标拟合出所述第三文本块对应的拟合直线;
确定所述第三文本块中的全部中心位置坐标到该第三文本块对应的拟合直线的第四平均距离;
基于所述第四平均距离与所述预设阈值之间的大小关系,确定是否需要对所述第三文本块进行划分。
11.根据权利要求1-9任一所述的方法,其特征在于,所述基于图片中已识别到的文字区域的区域特征信息,确定所述已识别到的文字区域各自所在的文本块,得到至少一个第一文本块,包括:
基于图片中已识别到的文字区域的区域特征信息,对所述区域特征信息进行归一化并加权组合,得到文字区域之间的相似度信息;
基于单链聚类方法,根据所述文字区域之间的相似度信息,得到至少一个第一文本块。
12.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-11任一所述的文本行的识别方法。
13.一种计算设备,其特征在于,所述设备包括:
处理器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器,用于执行上述权利要求1-11任一所述的文本行的识别方法。
CN201610997994.8A 2016-11-11 2016-11-11 文本行的识别方法及装置、计算设备 Active CN106570500B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610997994.8A CN106570500B (zh) 2016-11-11 2016-11-11 文本行的识别方法及装置、计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610997994.8A CN106570500B (zh) 2016-11-11 2016-11-11 文本行的识别方法及装置、计算设备

Publications (2)

Publication Number Publication Date
CN106570500A CN106570500A (zh) 2017-04-19
CN106570500B true CN106570500B (zh) 2018-01-23

Family

ID=58542668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610997994.8A Active CN106570500B (zh) 2016-11-11 2016-11-11 文本行的识别方法及装置、计算设备

Country Status (1)

Country Link
CN (1) CN106570500B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180239B (zh) * 2017-06-09 2020-09-11 科大讯飞股份有限公司 文本行识别方法及系统
CN109961063B (zh) * 2017-12-26 2021-12-14 杭州海康机器人技术有限公司 文本检测方法及装置、计算机设备和存储介质
CN108229471B (zh) * 2017-12-27 2023-10-27 南京晓庄学院 一种脱机手写体文本的行结构分析方法
CN109635810B (zh) * 2018-11-07 2020-03-13 北京三快在线科技有限公司 一种确定文本信息的方法、装置、设备及存储介质
CN111460198B (zh) * 2019-01-18 2023-06-20 阿里巴巴集团控股有限公司 一种图片时间戳的审核方法及装置
CN110147786B (zh) * 2019-04-11 2021-06-29 北京百度网讯科技有限公司 用于检测图像中的文本区域的方法、装置、设备以及介质
CN110070045A (zh) * 2019-04-23 2019-07-30 杭州智趣智能信息技术有限公司 一种营业执照的文本识别方法、系统及相关组件
CN110490198A (zh) * 2019-08-12 2019-11-22 上海眼控科技股份有限公司 文本方向校正方法、装置、计算机设备和存储介质
CN110516667B (zh) * 2019-08-15 2021-10-22 浙江万朋教育科技股份有限公司 一种基于安卓的文字水平矫正方法
CN111159432A (zh) * 2019-09-24 2020-05-15 广东小天才科技有限公司 一种指定内容的确定方法及电子设备
CN112651396A (zh) * 2019-10-12 2021-04-13 丰图科技(深圳)有限公司 字符拼接方法、装置、网络设备及计算机可读存储介质
CN111967449B (zh) * 2020-10-20 2021-02-02 北京易真学思教育科技有限公司 文本检测方法、电子设备及计算机可读介质
CN112749694B (zh) * 2021-01-20 2024-05-21 中科云谷科技有限公司 用于识别图像方向、识别铭牌文字的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855478A (zh) * 2011-06-30 2013-01-02 富士通株式会社 图像中文本区域定位方法和装置
CN103729638A (zh) * 2012-10-12 2014-04-16 阿里巴巴集团控股有限公司 一种文字区域识别中的文字行排列分析方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6470095B2 (en) * 1998-10-13 2002-10-22 Xerox Corporation Automatic extraction of text regions and region borders for an electronic work surface

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855478A (zh) * 2011-06-30 2013-01-02 富士通株式会社 图像中文本区域定位方法和装置
CN103729638A (zh) * 2012-10-12 2014-04-16 阿里巴巴集团控股有限公司 一种文字区域识别中的文字行排列分析方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
文本行字符基线的精确测定算法;卢达 等;《中山大学学报论丛》;20000708(第4期);第12-16页 *

Also Published As

Publication number Publication date
CN106570500A (zh) 2017-04-19

Similar Documents

Publication Publication Date Title
CN106570500B (zh) 文本行的识别方法及装置、计算设备
CN105912990B (zh) 人脸检测的方法及装置
Davis et al. Deep visual template-free form parsing
CN112115859A (zh) 智慧图书馆的管理方法、装置、系统以及可读存储介质
CN109670504A (zh) 一种手写答案识别批改方法及装置
CN108197532A (zh) 人脸识别的方法、装置及计算机装置
CN108549870A (zh) 一种对物品陈列进行鉴别的方法及装置
CN108470354A (zh) 视频目标跟踪方法、装置和实现装置
CN110717366A (zh) 文本信息的识别方法、装置、设备及存储介质
CN109492644A (zh) 一种习题图像的匹配识别方法及终端设备
CN109993021A (zh) 人脸正脸检测方法、装置及电子设备
CN109711440A (zh) 一种数据异常检测方法和装置
US11354549B2 (en) Method and system for region proposal based object recognition for estimating planogram compliance
CN110059156A (zh) 基于关联词的协同检索方法、装置、设备及可读存储介质
CN106844341A (zh) 基于人工智能的新闻摘要提取方法及装置
US11966455B2 (en) Text partitioning method, text classifying method, apparatus, device and storage medium
CN107169954A (zh) 一种基于并行卷积神经网络的图像显著性检测方法
CN107315989A (zh) 针对医学资料图片的文本识别方法和装置
CN107886512A (zh) 一种确定训练样本的方法
CN110413961A (zh) 基于分类模型进行文本评分的方法、装置和计算机设备
CN111695555B (zh) 一种基于题号的精准框题方法、装置、设备和介质
CN109189970A (zh) 图片相似度比对方法和装置
CN111652141A (zh) 基于题号和文本行的题目分割方法、装置、设备和介质
CN109635810B (zh) 一种确定文本信息的方法、装置、设备及存储介质
US10013621B2 (en) Systems and methods for identifying objects in media contents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant