CN117671685A - 一种文本中字符位置确定方法以及装置 - Google Patents
一种文本中字符位置确定方法以及装置 Download PDFInfo
- Publication number
- CN117671685A CN117671685A CN202211093829.1A CN202211093829A CN117671685A CN 117671685 A CN117671685 A CN 117671685A CN 202211093829 A CN202211093829 A CN 202211093829A CN 117671685 A CN117671685 A CN 117671685A
- Authority
- CN
- China
- Prior art keywords
- character
- index
- determining
- boundary position
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 101
- 238000012545 processing Methods 0.000 claims abstract description 60
- 239000011159 matrix material Substances 0.000 claims description 71
- 230000008569 process Effects 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 27
- 230000000750 progressive effect Effects 0.000 claims description 24
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000010586 diagram Methods 0.000 description 14
- 238000013136 deep learning model Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 125000000205 L-threonino group Chemical group [H]OC(=O)[C@@]([H])(N([H])[*])[C@](C([H])([H])[H])([H])O[H] 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Character Input (AREA)
Abstract
本申请提供一种文本中字符位置确定方法以及装置,属于文本识别技术领域。该方法包括:获取待识别的文本行图片,文本行图片包括排列在同一行或同一列的多个字符;对文本行图片进行文字识别处理,得到存在字符的索引集合,索引集合中包括与多个字符一一对应的多个索引的信息;对文本行图片进行投影处理,得到各字符投影后的像素坐标集合;根据索引集合和像素坐标集合,确定文本行图片中各字符的边界位置。本申请可以提高获取文本中字符位置的准确性。
Description
技术领域
本申请涉及文本识别技术领域,具体而言,涉及一种文本中字符位置确定方法以及装置。
背景技术
为了便于对文本进行编辑和转换等工作,对于图片中存在的文本,通常需要识别文本在图片中的位置,以得到对应位置的文本内容。
现有技术中,可以通过深度学习模型进行回归计算,以确定出每个字符的在图片中的边界位置。深度学习模型需要基于大量的样本数据进行训练。其中,合成数据由于不需要进行额外的数据标注,成为样本数据的一种重要获取方式。
但是,使用合成数据会导致深度学习模型的训练推理分布不一致,进而导致深度学习模型的准确率较低。
发明内容
本申请的目的在于提供一种文本中字符位置确定方法以及装置,可以提高获取文本中字符位置的准确性。
本申请的实施例是这样实现的:
本申请实施例的一方面,提供一种文本中字符位置确定方法,包括:
获取待识别的文本行图片,文本行图片包括排列在同一行或同一列的多个字符;
对文本行图片进行文字识别处理,得到存在字符的索引集合,索引集合中包括与多个字符一一对应的多个索引的信息;
对文本行图片进行投影处理,得到各字符投影后的像素坐标集合;
根据索引集合和像素坐标集合,确定文本行图片中各字符的边界位置。
可选地,索引的信息包括索引的目标参考位置;根据索引集合和像素坐标集合,确定文本行图片中各字符的边界位置,包括:
针对文本行图片中的每个字符执行以下操作:
在索引集合中,将对应字符的索引的目标参考位置作为初始位置;
若文本行图片包括排列在同一行的多个字符,由初始位置分别向左右两侧进行渐进扩张计算,并基于像素坐标集合确定字符的左右边界位置,根据文本行图片的行高确定字符的上下边界位置;
若文本行图片包括排列在同一列的多个字符,由初始位置分别向上下两侧进行渐进扩张计算,并基于像素坐标集合确定字符的上下边界位置,根据文本行图片的行宽确定字符的左右边界位置。
可选地,索引的信息还包括索引的范围;基于像素坐标集合确定字符的左右边界位置,包括:
基于像素坐标集合以及索引的范围确定字符的左右边界位置;
基于像素坐标集合确定字符的上下边界位置,包括:
基于像素坐标集合以及索引的范围确定字符的上下边界位置。
可选地,基于像素坐标集合以及索引的范围确定字符的左右边界位置,包括:
根据像素坐标集合,将到达字符对应的索引左侧边界位置前最后一个存在像素点的位置作为字符的左侧边界位置,其中,索引左侧边界位置为索引的范围所指示的左侧边界位置;
根据像素坐标集合,将到达字符对应的索引右侧边界位置前最后一个存在像素点的位置作为字符的右侧边界位置,其中,索引右侧边界位置为索引的范围所指示的右侧边界位置。
可选地,基于像素坐标集合以及索引的范围确定字符的上下边界位置,包括:
根据像素坐标集合,将到达字符对应的索引上侧边界位置前最后一个存在像素点的位置作为字符的上侧边界位置,其中,索引上侧边界位置为索引的范围所指示的上侧边界位置;
根据像素坐标集合,将到达字符对应的索引下侧边界位置前最后一个存在像素点的位置作为字符的下侧边界位置,其中,索引下侧边界位置为索引的范围所指示的下侧边界位置。
可选地,基于像素坐标集合确定字符的左右边界位置,包括:
根据像素坐标集合,将到达预设左侧边界位置前最后一个存在像素点的位置作为字符的左侧边界位置,其中,预设左侧边界位置与索引的目标参考位置的距离为第一预设值;
根据像素坐标集合,将到达预设右侧边界位置前最后一个存在像素点的位置作为字符的右侧边界位置,其中,预设右侧边界位置与索引的目标参考位置的距离为第二预设值。
可选地,基于像素坐标集合确定字符的上下边界位置,包括:
根据像素坐标集合,将到达预设上侧边界位置前最后一个存在像素点的位置作为字符的上侧边界位置,其中,预设上侧边界位置与索引的目标参考位置的距离为第三预设值;
根据像素坐标集合,将到达预设下侧边界位置前最后一个存在像素点的位置作为字符的下侧边界位置,其中,预设下侧边界位置与索引的目标参考位置的距离为第四预设值。
可选地,对文本行图片进行文字识别处理,得到存在字符的索引集合,包括:
将文本行图片输入至文字识别模型中,得到空白分割字符的概率分布矩阵;
基于空白分割字符的概率分布矩阵确定满足预设条件的字符分布矩阵;
根据字符分布矩阵构建文本行图片中存在字符的索引集合。
可选地,根据字符分布矩阵构建文本行图片中存在字符的索引集合,包括:
根据字符分布矩阵中各字符的位置以及文字识别模型的下采样率,确定索引集合中各索引的信息,其中,各索引的信息包括索引的范围以及索引的目标参考位置。
本申请实施例的另一方面,提供一种文本中字符位置确定装置,包括:获取模块、识别处理模块、投影处理模块以及位置确定模块;
获取模块,用于获取待识别的文本行图片,文本行图片包括排列在同一行或同一列的多个字符;
识别处理模块,用于对文本行图片进行文字识别处理,得到存在字符的索引集合,索引集合中包括与多个字符一一对应的多个索引的信息;
投影处理模块,用于对文本行图片进行投影处理,得到各字符投影后的像素坐标集合;
位置确定模块,用于根据索引集合和像素坐标集合,确定文本行图片中各字符的边界位置。
可选地,所述索引的信息包括索引的目标参考位置;位置确定模块,具体用于针对所述文本行图片中的每个所述字符执行以下操作:在所述索引集合中,将对应所述字符的索引的目标参考位置作为初始位置;若所述文本行图片包括排列在同一行的多个字符,由所述初始位置分别向左右两侧进行渐进扩张计算,并基于所述像素坐标集合确定所述字符的左右边界位置,根据所述文本行图片的行高确定所述字符的上下边界位置;若所述文本行图片包括排列在同一列的多个字符,由所述初始位置分别向上下两侧进行渐进扩张计算,并基于所述像素坐标集合确定所述字符的上下边界位置,根据所述文本行图片的行宽确定所述字符的左右边界位置。
可选地,所述索引的信息还包括索引的范围;位置确定模块,具体用于基于所述像素坐标集合以及所述索引的范围确定所述字符的左右边界位置;基于所述像素坐标集合以及所述索引的范围确定所述字符的上下边界位置。
可选地,位置确定模块,具体用于根据所述像素坐标集合,将到达所述字符对应的索引左侧边界位置前最后一个存在像素点的位置作为所述字符的左侧边界位置,其中,所述索引左侧边界位置为所述索引的范围所指示的左侧边界位置;根据所述像素坐标集合,将到达所述字符对应的索引右侧边界位置前最后一个存在像素点的位置作为所述字符的右侧边界位置,其中,所述索引右侧边界位置为所述索引的范围所指示的右侧边界位置。
可选地,位置确定模块,具体用于根据所述像素坐标集合,将到达所述字符对应的索引上侧边界位置前最后一个存在像素点的位置作为所述字符的上侧边界位置,其中,所述索引上侧边界位置为所述索引的范围所指示的上侧边界位置;根据所述像素坐标集合,将到达所述字符对应的索引下侧边界位置前最后一个存在像素点的位置作为所述字符的下侧边界位置,其中,所述索引下侧边界位置为所述索引的范围所指示的下侧边界位置。
可选地,位置确定模块,具体用于根据所述像素坐标集合,将到达预设左侧边界位置前最后一个存在像素点的位置作为所述字符的左侧边界位置,其中,所述预设左侧边界位置与所述索引的目标参考位置的距离为第一预设值;根据所述像素坐标集合,将到达预设右侧边界位置前最后一个存在像素点的位置作为所述字符的右侧边界位置,其中,所述预设右侧边界位置与所述索引的目标参考位置的距离为第二预设值;位置确定模块,具体还用于根据所述像素坐标集合,将到达预设上侧边界位置前最后一个存在像素点的位置作为所述字符的上侧边界位置,其中,所述预设上侧边界位置与所述索引的目标参考位置的距离为第三预设值;根据所述像素坐标集合,将到达预设下侧边界位置前最后一个存在像素点的位置作为所述字符的下侧边界位置,其中,所述预设下侧边界位置与所述索引的目标参考位置的距离为第四预设值。
可选地,识别处理模块,具体用于将所述文本行图片输入至文字识别模型中,得到空白分割字符的概率分布矩阵;基于所述空白分割字符的概率分布矩阵确定满足预设条件的字符分布矩阵;根据所述字符分布矩阵构建所述文本行图片中存在字符的索引集合。
可选地,识别处理模块,具体用于根据所述字符分布矩阵中各字符的位置以及所述文字识别模型的下采样率,确定所述索引集合中各索引的信息,其中,各索引的信息包括索引的范围以及索引的目标参考位置。
可选地,投影处理模块,具体用于若所述文本行图片包括排列在同一行的多个字符,对所述文本行图片进行纵向投影处理,得到纵向投影矩阵,所述纵向投影矩阵用于表征在文本行图片的各像素点纵向投影后的像素值的信息;若所述文本行图片包括排列在同一列的多个字符,对所述文本行图片进行横向投影处理,得到横向投影矩阵,所述横向投影矩阵用于表征在文本行图片的各像素点横向投影后的像素值的信息;基于所述纵向投影矩阵或者所述横向投影矩阵建立所述像素坐标集合。
本申请实施例的另一方面,提供一种计算机设备,包括:存储器、处理器,存储器中存储有可在处理器上运行的计算机程序,处理器执行计算机程序时,实现文本中字符位置确定方法的步骤。
本申请实施例的另一方面,提供一种计算机可读存储介质,存储介质上存储有计算机程序,该计算机程序被处理器执行时,实现文本中字符位置确定方法的步骤。
本申请实施例的有益效果包括:
本申请实施例提供的一种文本中字符位置确定方法中,可以在得到文本行图片之后,进行文字识别处理得到存在字符的索引集合,并进行投影处理得到各字符投影后的像素坐标集合,进而可以基于索引集合和像素坐标集合对各个字符的位置进行确定,其中,通过索引集合可以更加准确地实现对各字符位置的初步确定,结合像素坐标集合,可以更加准确对每个字符的边界位置进行确定,基于索引集合和像素坐标集合确定出的字符位置更加准确,可以避免因为文字粘连产生的识别错误问题,提高识别结果的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的文本行图片的示意图;
图2为本申请实施例提供的文本中字符位置确定方法的流程示意图;
图3为本申请实施例提供的得到存在字符的索引集合的过程示意图;
图4为本申请实施例提供的得到各字符投影后的像素坐标集合的过程示意图;
图5为本申请实施例提供的文本中字符位置确定方法的另一流程示意图;
图6为本申请实施例提供的文本中字符位置确定方法中确定左右边界的过程示意图;
图7为本申请实施例提供的文本中字符位置确定方法中确定左右边界的另一过程示意图;
图8为本申请实施例提供的文本中字符位置确定方法中确定索引集合的流程示意图;
图9为本申请实施例提供的文本中字符位置确定方法中确定像素坐标集合的流程示意图;
图10为本申请实施例提供的文本中字符位置确定装置的结构示意图;
图11为本申请实施例提供的计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,需要说明的是,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在对文本进行编辑和转换的工作中,例如:基于计算机对部分文字进行可编辑的转化或者对包括文字的文档进行格式转换等过程中,由于实际工作的需要,通常需要对图片或者文档中的文字进行位置识别后,得到对应位置的文本内容。
现有技术中,采用的方法主要是通过深度学习模型进行回归计算,以确定出每个字符的在图片中的边界位置。例如:将需要识别的模型直接输入预先训练好的深度学习模型中,得到对应的位置,对于此类方法,通常需要基于大量的样本数据对模型进行训练,然而在对模型训练的过程中,通常使用的是合成数据,但是,使用合成数据会导致深度学习模型的训练推理分布不一致。
或者,现有技术中也有可能会采用图像处理的方式进行识别,对图像中的字符进行分割,而此类方法严重依赖于分割阈值,且对于在书写方向上存在粘滞的文本处理效果不好,例如:对于文字间隔较近的两个字符,若存在粘滞等情况,很容易导致基于该方式识别出的结果存在错误,进而导致得到的识别结果的准确率较低。
基于现有技术中存在以上的种种弊端,本申请是实施例中提供了一种文本中字符位置确定方法,用以解决上述缺陷,下面来具体解释本申请实施例中提供的文本中字符位置确定方法中可以具体识别的文本行图片。
图1为本申请实施例提供的文本行图片的示意图,请参照图1,文本行图片具体可以是排列在同一行或者同一列的多个字符,图1中以同一行为例进行解释,这些字符可以是任意语种的文字、字母、符号或者预设图标等任意类型的字符,在此不作具体限制。
需要说明的是,文本行图片具体可以是只排列一行的字符的集合,若需要对多行字符进行识别,可以按照行的方式分割得到多个文本行图片,从而分别对多个文本行图片进行识别;相对地,也可以实现对多列字符进行识别,可以按照列的方式分割得到多个文本行图片。
下面来具体解释本申请实施例中提供的文本中字符位置确定方法的具体实施过程。
图2为本申请实施例提供的文本中字符位置确定方法的流程示意图,请参照图2,文本中字符位置确定方法,包括:
S210:获取待识别的文本行图片。
可选地,该方法的执行主体具体可以是计算机设备,例如:电脑、手机或者专用电子设备等,具体可以是设置在这些计算机设备中的软件程序。
其中,可以获取待识别的文本行图片,待识别的文本行图片即可以是图1中所示的图片,可以是用户主动输入的图片,也可以是基于其他处理过程后得到的图片,在此不作具体限制。
具体的,该文本行图片可以是已知尺寸大小的图片,例如:该图片的高度可以是H,该图片的宽度可以是W,也即是尺寸在H*W的文本行图片。
S220:对文本行图片进行文字识别处理,得到存在字符的索引集合。
其中,索引集合中包括与多个字符一一对应的多个索引的信息,索引的信息包括索引的目标参考位置和索引的范围。
可选地,在得到文本行图片之后可以进行文字识别处理,具体可以是通过预先配置识别模型或者识别程序等方式对文字进行识别。
其中,每个索引可以对应一个字符,索引集合中可以包括多个索引,各索引具有自身的索引信息,索引的信息中,索引的范围可以是该索引所对应的字符的最大位置区间,索引的目标参考位置可以是该索引所包含的范围中的一个位置,例如可以是中间位置,需要说明的是,该中间位置具体可以指的是大致确定的中间位置,可以具有一定的位置误差。
例如,若文本行图片中的字符为“文本行图片”,则基于上述文字识别模型得到的索引集合中即可以包括五个索引,每个索引分别对应一个字符。
S230:对文本行图片进行投影处理,得到各字符投影后的像素坐标集合。
可选地,投影处理,具体可以是在二维平面中以横向为X轴,纵向为Y轴,将纵向上所有的内容投影到X轴,或者,将横向上所有的内容投影到Y轴的处理过程,对于二维平面中文字类型的字符,在经过投影处理之后,会得到对应的轴上的不定数量的线段或者点等元素。
各字符投影后的像素坐标集合即为记录投影处理之后,这些线段或者点的位置的集合,具体可以是以像素为单位进行的计量。
需要说明的是,上述步骤S220和步骤S230在执行的过程中可以是依次执行,也可以是分别执行,在此不作执行时序上的限制,可以根据实际的需求进行设置,图2中以分别进行为例。
S240:根据索引集合和像素坐标集合,确定文本行图片中各字符的边界位置。
可选地,分别得到上述索引集合和像素坐标集合之后,可以结合两个集合中的数据,进一步进行计算,确定文本行图片中各字符的边界位置。
其中,边界位置可以包括一个字符的四个边界的位置,例如:上侧边界、下侧边界、左侧边界以及右侧边界。
对于左侧边界和右侧边界,可以按照其在X轴的坐标作为其位置,对于上侧边界和下侧边界,可以按照其在Y轴的坐标作为其位置。
对于一个字符的位置,也可以按照各个边界的位置表示,也即是说,可以将一个字符的位置按照四维数组的形式进行表示,例如:(X1,Y1,X2,Y2),其中,X1为左侧边界的位置,Y1为上侧边界的位置,X2为右侧边界的位置,Y2为下侧边界的位置,四维数组中的四个位置可以根据实际需求交换顺序,并不以上述表现形式为限制。
本申请实施例提供的一种文本中字符位置确定方法中,可以在得到文本行图片之后,进行文字识别处理得到存在字符的索引集合,并进行投影处理得到各字符投影后的像素坐标集合,进而可以基于索引集合和像素坐标集合对各个字符的位置进行确定,其中,通过索引集合可以更加准确地实现对各字符位置的初步确定,结合像素坐标集合,可以更加准确对每个字符的边界位置进行确定,基于索引集合和像素坐标集合确定出的字符位置更加准确,可以避免因为文字粘连产生的识别错误问题,提高识别结果的准确性。
为了便于对本申请实施例中所涉及的内容进行更加明确的说明,下面来具体解释本申请实施例中存在字符的索引集合的表现方式。
图3为本申请实施例提供的得到存在字符的索引集合的过程示意图,请参照图3,图3的(a)即为前述文本行图片,(b)即为索引集合。
其中,(b)中可以包括多个竖线,每个竖线即可以代表一个索引的目标参考位置,每个索引的目标参考位置的左右两侧的一定范围可以是该索引的范围(图3中未画出具体的范围大小,仅以多个索引的目标参考位置作为参考)。
需要说明的是,图3以文本行图片包括排列在同一行的多个字符为例进行解释,对于文本行图片包括排列在同一列的多个字符的情况,与图3所示相类似,在此不作重复解释。
图3中(a)到(b)的变化过程即为由文本行图片得到的索引集合。
相应地,下面来具体解释本申请实施例中各字符投影后的像素坐标集合的表现方式。
图4为本申请实施例提供的得到各字符投影后的像素坐标集合的过程示意图,请参照图4,图4的(a)即为前述文本行图片,(c)即为像素坐标集合。
其中,(c)中并未具体对每个像素点的位置进行标注,仅仅是显示出存在像素点和不存在像素点的投影结果。
下面来具体解释本申请实施例中提供的文本中字符位置确定方法中确定各字符边界位置的具体实施过程。
图5为本申请实施例提供的文本中字符位置确定方法的另一流程示意图,请参照图5。
可选地,索引的信息包括索引的目标参考位置;根据索引集合和像素坐标集合,确定文本行图片中各字符的边界位置,包括:
针对文本行图片中的每个字符执行以下操作:
S510:在索引集合中,将对应字符的索引的目标参考位置作为初始位置。
可选地,在进行字符的边界确定的过程中,可以分别对每个字符进行确定,也可以同时对多个字符进行确定,在此不作具体限制,可以根据实际需求进行对应设置。
对于不同的字符,得到其边界位置的过程是一致的,具体可以是先确定该字符对应的索引的目标参考位置,将该位置作为初始位置,也即是渐进式扩张算法的起点。
S520:若文本行图片包括排列在同一行的多个字符,由初始位置分别向左右两侧进行渐进扩张计算,并基于像素坐标集合确定字符的左右边界位置,根据文本行图片的行高确定字符的上下边界位置。
其中,渐进式扩张计算的实现过程可以是从起点开始每走一个步长进行一次计算,一直走到边界位置后得到计算结果。
得到索引集合以及像素坐标集合之后,可以基于这两个集合中的相关数据确定边界和起点,进而实现渐进式扩张算法的计算过程。
可选地,确定初始位置之后,可以基于渐进式扩张算法向该初始位置的左右两侧分别进行渐进扩张计算。
其中,对于若文本行图片包括排列在同一行的多个字符这种情况,在进行计算的过程中,可以先向左侧进行扩张计算,再向右侧进行扩张计算;或者,也可以先向右侧进行扩张计算,再向左侧进行扩张计算,在此不作具体时序要求。
在进行渐进扩张计算的过程中可以基于像素坐标集合中像素点的位置确定文本行图片中各字符的左右边界位置。
可选地,由于文本行图片中只存在一行字符,对于文本行图片的上下边界位置,可以直接根据行高确定,文本行图片的行高即为H。
例如:若以文本行图片的下侧边界所在的位置为X轴,则文本行图片的下侧边界即为0,上侧边界即为H。
可选地,采用该方式得到行高仅为其中的一种可行方式,在实际实施的过程中也可以基于投影的方式得到上下边界位置。
例如,可以将文本行图片中每个字符进行剪裁,分别投影至二维坐标中的Y轴上,基于投影的结果,确定每个字符的上下边界,由于文本行图片只存在一行,对Y轴投影不存在文字的粘滞问题,所以采用该方式可以直接得到上下边界的位置,不需要采用渐进式扩张算法。基于投影的结果可以得到每个字符的各个边界的具体位置。
S530:若文本行图片包括排列在同一列的多个字符,由初始位置分别向上下两侧进行渐进扩张计算,并基于像素坐标集合确定字符的上下边界位置,根据文本行图片的行宽确定字符的左右边界位置。
其中,对于文本行图片包括排列在同一列的多个字符,在进行计算的过程中,可以先向上侧进行扩张计算,再向下侧进行扩张计算;或者,也可以先向下侧进行扩张计算,再向上侧进行扩张计算,在此不作具体时序要求。
在进行渐进扩张计算的过程中可以基于像素坐标集合中像素点的位置确定文本行图片中各字符的上下边界位置。
可选地,由于文本行图片中只存在一列字符,对于文本行图片的左右边界位置,可以直接根据行宽确定,文本行图片的行宽即为W。
例如:若以文本行图片的左侧边界所在的位置为Y轴,则文本行图片的左侧边界即为0,右侧边界即为W。
可选地,采用该方式得到行宽仅为其中的一种可行方式,在实际实施的过程中也可以基于投影的方式得到左右边界位置。
例如,可以将文本行图片中每个字符进行剪裁,分别投影至二维坐标中的X轴上,基于投影的结果,确定每个字符的左右边界,由于文本行图片只存在一列,对X轴投影不存在文字的粘滞问题,所以采用该方式可以直接得到左右边界的位置,不需要采用渐进式扩张算法。基于投影的结果可以得到每个字符的各个边界的具体位置。
本申请提供的文本中字符位置确定方法中,可以在索引集合中,将对应字符的索引的目标参考位置作为初始位置,进而根据不同的情况得到左右边界以及上下边界。其中,通过渐进式扩张算法进行左右/上下边界位置的确定,可以使得到的边界的位置更加准确,从而可以更加准确地确定文本行图片中各字符的位置。
可选地,索引的信息还包括索引的范围。基于像素坐标集合确定字符的左右边界位置,包括:基于像素坐标集合以及索引的范围确定字符的左右边界位置。基于像素坐标集合确定字符的上下边界位置,包括:基于像素坐标集合以及索引的范围确定字符的上下边界位置。
具体的,在实现左右/上下边界位置确定的过程中,可以结合像素坐标集合以及各索引的范围确定文本行图片中各字符的左右/上下边界位置,下面来基于具体的实施例来解释确定文本行图片中各字符的左右边/上下界位置的实现过程。
图6为本申请实施例提供的文本中字符位置确定方法中确定左右边界的过程示意图,请参照图6,基于像素坐标集合以及各索引的范围确定文本行图片中各字符的左右边界位置,包括:
根据像素坐标集合,将到达索引左侧边界位置前最后一个存在像素点的位置作为目标字符的左侧边界位置,其中,索引左侧边界位置为索引的范围所指示的左侧边界位置。根据像素坐标集合,将到达索引右侧边界位置前最后一个存在像素点的位置作为目标字符的右侧边界位置,其中,索引右侧边界位置为索引的范围所指示的右侧边界位置。
图6中所示的过程即为得到各字符的左右边界位置的过程,具体的,以向左侧渐进式扩张为例,可以判定像素点坐标集合中当前位置对应的下一个位置是否存在像素点,若存在,可以确定当前位置并非是边界位置;若不存在,可以确定当前位置为待定边界位置,并继续进行渐进式扩张计算,直到到达索引左侧边界位置为止,若没有新的待定边界位置,则可以确定当前的待定边界位置为字符的左侧边界位置;若存在新的待定边界位置,可以替换已经存储的待定边界位置。
也即是说,可以根据像素坐标集合,将到达索引左侧边界位置前最后一个存在像素点的位置作为目标字符的左侧边界位置。
相应地,在该实施例中,对右侧的实现过程相类似,在此不加赘述。
采用上述方式,即可以得到各字符的左侧边界位置和右侧边界位置。
需要说明的是,图6中以对一个字符向左右两侧进行渐进式扩张为例,在实际实施的过程中可以是对于多个字符实现。
需要说明的是,图6中所示的过程为针对同一行字符情况下左右边界的确定,对于同一列字符情况下,上下边界的确定与上述过程相类似,具体如下:
基于像素坐标集合以及索引的范围确定字符的上下边界位置,包括:
根据像素坐标集合,将到达字符对应的索引上侧边界位置前最后一个存在像素点的位置作为字符的上侧边界位置,其中,索引上侧边界位置为索引的范围所指示的上侧边界位置;根据像素坐标集合,将到达字符对应的索引下侧边界位置前最后一个存在像素点的位置作为字符的下侧边界位置,其中,索引下侧边界位置为索引的范围所指示的下侧边界位置。
下面来基于具体的实施例来解释确定文本行图片中各字符的左右边界位置的另一具体实现过程。
图7为本申请实施例提供的文本中字符位置确定方法中确定左右边界的另一过程示意图,请参照图7,基于像素坐标集合确定文本行图片中各字符的左右边界位置,包括:
根据像素坐标集合,将到达预设左侧边界位置前最后一个存在像素点的位置作为目标字符的左侧边界位置,其中,预设左侧边界位置与索引的目标参考位置的距离为第一预设值;根据像素坐标集合,将到达预设右侧边界位置前最后一个存在像素点的位置作为目标字符的右侧边界位置,其中,预设右侧边界位置与索引的目标参考位置的距离为第二预设值。
其中,第一预设值和第二预设值可以相同,也可以不同,在此不作限制。
图7中所示的过程即为得到各字符的左右边界位置的过程,具体的,以向左侧渐进式扩张为例,可以判定像素点坐标集合中当前位置对应的下一个位置是否存在像素点,若存在,可以确定当前位置并非是边界位置;若不存在,可以确定当前位置为待定边界位置,并继续进行渐进式扩张计算,直到到达预设左侧边界位置为止,若没有新的待定边界位置,则可以确定当前的待定边界位置为字符的左侧边界位置;若存在信号待定边界位置,可以替换已经存储的待定边界位置。
也即是说,可以根据像素坐标集合,将到达预设左侧边界位置前最后一个存在像素点的位置作为目标字符的左侧边界位置。
相应地,在该实施例中,对右侧的实现过程相类似,在此不加赘述。
需要说明的是,预设左侧边界位置与索引的目标参考位置的距离为预设值,预设右侧边界位置与索引的目标参考位置的距离也为预设值,这两个预设值可以相同,均为预先设置的一个定值,定值的具体大小可以根据实际需求设置,在此不作具体限制。
需要说明的是,图7中以对一个字符向左右两侧进行渐进式扩张为例,在实际实施的过程中可以是对于多个字符实现。
同理,图7中所示的过程为针对同一行字符情况下左右边界的确定,对于同一列字符情况下,上下边界的确定与上述过程相类似,具体如下:
基于像素坐标集合确定字符的上下边界位置,包括:
根据像素坐标集合,将到达预设上侧边界位置前最后一个存在像素点的位置作为字符的上侧边界位置,其中,预设上侧边界位置与索引的目标参考位置的距离为第三预设值;根据像素坐标集合,将到达预设下侧边界位置前最后一个存在像素点的位置作为字符的下侧边界位置,其中,预设下侧边界位置与索引的目标参考位置的距离为第四预设值。
其中,第三预设值和第四预设值可以相同,也可以不同,在此不作限制。
下面来具体解释本申请实施例中提供的文本中字符位置确定方法中确定索引集合的具体实施过程。
图8为本申请实施例提供的文本中字符位置确定方法中确定索引集合的流程示意图,请参照图8,对文本行图片进行文字识别处理,得到存在字符的索引集合,包括:
S810:将文本行图片输入至文字识别模型中,得到空白分割字符的概率分布矩阵。
可选地,文字识别模型具体可以是光学字符识别模型(OCR,Optical CharacterRecognition),该文字识别模型具体可以是基于连接时间分类损失函数(ConnectionistTemporal Classification loss,CTC loss)训练得到的,在训练的过程中还可以结合卷积神经网络(Convolutional Neural Networks,CNN)进行训练。
可选地,将文本行图片输入至文字识别模型后,可以得到该模型的输出,该模型的输出具体可以是空白分割字符的概率分布矩阵,也即是该文本行图片中空白位置的分布情况。
该概率分布矩阵P的大小可以是w*D,其中,D为识别模型字典集大小,w为模型输出的特征向量长度,其中,W/w=s,W即为前述的文本行图片的宽度,s即为模型的下采样倍数。
S820:基于空白分割字符的概率分布矩阵确定满足预设条件的字符分布矩阵。
可选地,得到空白分割字符的概率分布矩阵P之后,可以确定满足预设条件的字符分布矩阵,具体过程如下:
可以先确定矩阵P输出空白分割字符ε的概率作为非文本区域的概率,对于任意一个字符i,有i∈w,可以构建初始字符分布矩阵E,其中,Ei=1-Pi,ε,其中,Pi,ε即为空白分割字符ε中第i个字符作为非文本区域的概率,进一步将所有Ei>0.5的i存入集合Pos={i:Ei>0.5}中,该集合Pos即为满足预设条件的字符分布矩阵。
S830:根据字符分布矩阵构建文本行图片中存在字符的索引集合。
可选地,得到字符分布矩阵之后,可以基于该字符分布矩阵构建文本行图片中存在的字符的索引集合,具体可以是根据字符分布矩阵中各字符的位置以及文字识别模型的下采样率,确定索引集合中各索引的信息,其中,各索引的信息包括索引的范围以及索引的目标参考位置。
文本行图片经过文字识别模型后会进行下采样处理,并可以输出得到一个模型输出特征图,例如若文本行图片中坐标为(x,y)的位置,映射到模型输出特征图后,坐标会变为(x/s,y/s),其中s即为前述提到的下采样倍数。
满足预设条件的字符分布矩阵Pos中每一个位置索引j对应于输入图像的i*s到i*(s+1)的区域。
则可以构建原始图像中存在字符的初始像素坐标索引集合K0,其中,K0j={j:i*s≤j<i*(s+1)},由于采用上述方式得到的索引仅对应半个字符,为了满足实际识别的需求,可以对初始像素坐标索引集合K0进行扩展,得到文本行图片中存在字符的索引集合K,可以将K0j与K0j+1合并,从而得到Kj={j:i*s≤j<i*(s+2)},其中,j的范围即为索引的范围,索引的目标参考位置即为i*(s+1)。
可选地,基于上述方式得到的K即为存在字符的索引集合。
下面来具体解释本申请实施例中提供的文本中字符位置确定方法中确定像素坐标集合的具体实施过程。
图9为本申请实施例提供的文本中字符位置确定方法中确定像素坐标集合的流程示意图,请参照图9,对文本行图片进行投影处理,得到各字符投影后的像素坐标集合,包括:
S910:若文本行图片包括排列在同一行的多个字符,对文本行图片进行纵向投影处理,得到纵向投影矩阵。
其中,纵向投影矩阵用于表征在文本行图片的各像素点纵向投影后的像素值的信息。
可选地,可以对文本行图片进行纵向投影处理,先得到一个在x轴上的纵向投影矩阵Projx,对于该纵向投影矩阵,Projx,i可以表示在文本行图片中,x=i时像素值的信息。像素值的信息具体可以指存在像素值的像素点的个数。
S920:若文本行图片包括排列在同一列的多个字符,对文本行图片进行横向投影处理,得到横向投影矩阵。
其中,横向投影矩阵用于表征在文本行图片的各像素点横向投影后的像素值的信息。
可选地,可以对文本行图片进行横向投影处理,先得到一个在y轴上的横向投影矩阵Projy,对于该横向投影矩阵,Projy,i可以表示在文本行图片中,y=i时像素值的信息。像素值的信息具体可以指存在像素值的像素点的个数。
S930:基于纵向投影矩阵或者横向投影矩阵建立像素坐标集合。
可选地,得到上述纵向投影矩阵Projx和横向投影矩阵Projy之后可以确定一个阈值thres,将纵向投影矩阵Projx中所有满足Projx,i≥thres的字符i取出(或者将横向投影矩阵Projy中所有满足Projy,i≥thres的字符i取出),构建出像素坐标集合,对于纵向投影矩阵构建的像素坐标集合可以表示为Px={i:Px,i≥thres,i∈W},其中,W即为前述文本行图片的宽度。对于横向投影矩阵构建的像素坐标集合可以表示为Py={i:Py,i≥thres,i∈H},其中,H即为前述文本行图片的高度。
基于上述方式得到索引集合K和像素坐标集合Px(Py)之后可以进行渐进式扩张计算,确定每个字符的边界位置。
下述对用以执行的本申请所提供的文本中字符位置确定方法对应的装置、设备及存储介质等进行说明,其具体的实现过程以及技术效果参见上述,下述不再赘述。
图10为本申请实施例提供的文本中字符位置确定装置的结构示意图,请参照图10,该装置包括:获取模块110、识别处理模块120、投影处理模块130以及位置确定模块140;
获取模块110,用于获取待识别的文本行图片,文本行图片包括排列在同一行或同一列的多个字符;
识别处理模块120,用于对文本行图片进行文字识别处理,得到存在字符的索引集合,索引集合中包括与多个字符一一对应的多个索引的信息;
投影处理模块130,用于对文本行图片进行投影处理,得到各字符投影后的像素坐标集合;
位置确定模块140,用于根据索引集合和像素坐标集合,确定文本行图片中各字符的边界位置。
可选地,所述索引的信息包括索引的目标参考位置;位置确定模块140,具体用于针对所述文本行图片中的每个所述字符执行以下操作:在所述索引集合中,将对应所述字符的索引的目标参考位置作为初始位置;若所述文本行图片包括排列在同一行的多个字符,由所述初始位置分别向左右两侧进行渐进扩张计算,并基于所述像素坐标集合确定所述字符的左右边界位置,根据所述文本行图片的行高确定所述字符的上下边界位置;若所述文本行图片包括排列在同一列的多个字符,由所述初始位置分别向上下两侧进行渐进扩张计算,并基于所述像素坐标集合确定所述字符的上下边界位置,根据所述文本行图片的行宽确定所述字符的左右边界位置。
可选地,所述索引的信息还包括索引的范围;位置确定模块140,具体用于基于所述像素坐标集合以及所述索引的范围确定所述字符的左右边界位置;基于所述像素坐标集合以及所述索引的范围确定所述字符的上下边界位置。
可选地,位置确定模块140,具体用于根据所述像素坐标集合,将到达所述字符对应的索引左侧边界位置前最后一个存在像素点的位置作为所述字符的左侧边界位置,其中,所述索引左侧边界位置为所述索引的范围所指示的左侧边界位置;根据所述像素坐标集合,将到达所述字符对应的索引右侧边界位置前最后一个存在像素点的位置作为所述字符的右侧边界位置,其中,所述索引右侧边界位置为所述索引的范围所指示的右侧边界位置。
可选地,位置确定模块140,具体用于根据所述像素坐标集合,将到达所述字符对应的索引上侧边界位置前最后一个存在像素点的位置作为所述字符的上侧边界位置,其中,所述索引上侧边界位置为所述索引的范围所指示的上侧边界位置;根据所述像素坐标集合,将到达所述字符对应的索引下侧边界位置前最后一个存在像素点的位置作为所述字符的下侧边界位置,其中,所述索引下侧边界位置为所述索引的范围所指示的下侧边界位置。
可选地,位置确定模块140,具体用于根据所述像素坐标集合,将到达预设左侧边界位置前最后一个存在像素点的位置作为所述字符的左侧边界位置,其中,所述预设左侧边界位置与所述索引的目标参考位置的距离为第一预设值;根据所述像素坐标集合,将到达预设右侧边界位置前最后一个存在像素点的位置作为所述字符的右侧边界位置,其中,所述预设右侧边界位置与所述索引的目标参考位置的距离为第二预设值;位置确定模块,具体还用于根据所述像素坐标集合,将到达预设上侧边界位置前最后一个存在像素点的位置作为所述字符的上侧边界位置,其中,所述预设上侧边界位置与所述索引的目标参考位置的距离为第三预设值;根据所述像素坐标集合,将到达预设下侧边界位置前最后一个存在像素点的位置作为所述字符的下侧边界位置,其中,所述预设下侧边界位置与所述索引的目标参考位置的距离为第四预设值。
可选地,识别处理模块120,具体用于将所述文本行图片输入至文字识别模型中,得到空白分割字符的概率分布矩阵;基于所述空白分割字符的概率分布矩阵确定满足预设条件的字符分布矩阵;根据所述字符分布矩阵构建所述文本行图片中存在字符的索引集合。
可选地,识别处理模块120,具体用于根据所述字符分布矩阵中各字符的位置以及所述文字识别模型的下采样率,确定所述索引集合中各索引的信息,其中,各索引的信息包括索引的范围以及索引的目标参考位置。
可选地,投影处理模块130,具体用于若所述文本行图片包括排列在同一行的多个字符,对所述文本行图片进行纵向投影处理,得到纵向投影矩阵,所述纵向投影矩阵用于表征在文本行图片的各像素点纵向投影后的像素值的信息;若所述文本行图片包括排列在同一列的多个字符,对所述文本行图片进行横向投影处理,得到横向投影矩阵,所述横向投影矩阵用于表征在文本行图片的各像素点横向投影后的像素值的信息;基于所述纵向投影矩阵或者所述横向投影矩阵建立所述像素坐标集合。
本申请实施例提供的一种文本中字符位置确定装置中,可以在得到文本行图片之后,进行文字识别处理得到存在字符的索引集合,并进行投影处理得到各字符投影后的像素坐标集合,进而可以基于索引集合和像素坐标集合对各个字符的位置进行确定,其中,通过索引集合可以更加准确地实现对各字符位置的初步确定,结合像素坐标集合,可以更加准确对每个字符的边界位置进行确定,基于索引集合和像素坐标集合确定出的字符位置更加准确,可以避免因为文字粘连产生的识别错误问题,提高识别结果的准确性。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器,或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
图11为本申请实施例提供的计算机设备的结构示意图,请参照图11,计算机设备,包括:存储器210、处理器220,存储器210中存储有可在处理器220上运行的计算机程序,处理器220执行计算机程序时,实现文本中字符位置确定方法的步骤。
可选地,该计算机设备即可以是前述执行文本中字符位置确定方法的计算机设备。
本申请实施例的另一方面,还提供一种计算机可读存储介质,存储介质上存储有计算机程序,该计算机程序被处理器执行时,实现文本中字符位置确定方法的步骤。
基于上述计算机设备以及计算机可读存储介质实现的文本中字符位置确定方法中,可以在得到文本行图片之后,进行文字识别处理得到存在字符的索引集合,并进行纵向投影处理得到各字符投影后的像素坐标集合,进而可以基于索引集合和像素坐标集合对各个字符的位置进行确定,其中,通过索引集合可以更加准确地实现对各字符位置的初步确定,结合像素坐标集合,可以更加准确对每个字符的边界位置进行确定,基于索引集合和像素坐标集合确定出的字符位置更加准确,可以避免因为文字粘连产生的识别错误问题,提高识别结果的准确性。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种文本中字符位置确定方法,其特征在于,包括:
获取待识别的文本行图片,所述文本行图片包括排列在同一行或同一列的多个字符;
对所述文本行图片进行文字识别处理,得到存在字符的索引集合,所述索引集合中包括与所述多个字符一一对应的多个索引的信息;
对所述文本行图片进行投影处理,得到各字符投影后的像素坐标集合;
根据所述索引集合和所述像素坐标集合,确定所述文本行图片中各字符的边界位置。
2.如权利要求1所述的文本中字符位置确定方法,其特征在于,所述索引的信息包括索引的目标参考位置;
所述根据所述索引集合和所述像素坐标集合,确定所述文本行图片中各字符的边界位置,包括:
针对所述文本行图片中的每个所述字符执行以下操作:
在所述索引集合中,将对应所述字符的索引的目标参考位置作为初始位置;
若所述文本行图片包括排列在同一行的多个字符,由所述初始位置分别向左右两侧进行渐进扩张计算,并基于所述像素坐标集合确定所述字符的左右边界位置,根据所述文本行图片的行高确定所述字符的上下边界位置;
若所述文本行图片包括排列在同一列的多个字符,由所述初始位置分别向上下两侧进行渐进扩张计算,并基于所述像素坐标集合确定所述字符的上下边界位置,根据所述文本行图片的行宽确定所述字符的左右边界位置。
3.如权利要求2所述的文本中字符位置确定方法,其特征在于,所述索引的信息还包括索引的范围;
所述基于所述像素坐标集合确定所述字符的左右边界位置,包括:
基于所述像素坐标集合以及所述索引的范围确定所述字符的左右边界位置;
所述基于所述像素坐标集合确定所述字符的上下边界位置,包括:
基于所述像素坐标集合以及所述索引的范围确定所述字符的上下边界位置。
4.如权利要求3所述的文本中字符位置确定方法,其特征在于,所述基于所述像素坐标集合以及所述索引的范围确定所述字符的左右边界位置,包括:
根据所述像素坐标集合,将到达所述字符对应的索引左侧边界位置前最后一个存在像素点的位置作为所述字符的左侧边界位置,其中,所述索引左侧边界位置为所述索引的范围所指示的左侧边界位置;
根据所述像素坐标集合,将到达所述字符对应的索引右侧边界位置前最后一个存在像素点的位置作为所述字符的右侧边界位置,其中,所述索引右侧边界位置为所述索引的范围所指示的右侧边界位置。
5.如权利要求3所述的文本中字符位置确定方法,其特征在于,所述基于所述像素坐标集合以及所述索引的范围确定所述字符的上下边界位置,包括:
根据所述像素坐标集合,将到达所述字符对应的索引上侧边界位置前最后一个存在像素点的位置作为所述字符的上侧边界位置,其中,所述索引上侧边界位置为所述索引的范围所指示的上侧边界位置;
根据所述像素坐标集合,将到达所述字符对应的索引下侧边界位置前最后一个存在像素点的位置作为所述字符的下侧边界位置,其中,所述索引下侧边界位置为所述索引的范围所指示的下侧边界位置。
6.如权利要求2所述的文本中字符位置确定方法,其特征在于,所述基于所述像素坐标集合确定所述字符的左右边界位置,包括:
根据所述像素坐标集合,将到达预设左侧边界位置前最后一个存在像素点的位置作为所述字符的左侧边界位置,其中,所述预设左侧边界位置与所述索引的目标参考位置的距离为第一预设值;
根据所述像素坐标集合,将到达预设右侧边界位置前最后一个存在像素点的位置作为所述字符的右侧边界位置,其中,所述预设右侧边界位置与所述索引的目标参考位置的距离为第二预设值;
所述基于所述像素坐标集合确定所述字符的上下边界位置,包括:
根据所述像素坐标集合,将到达预设上侧边界位置前最后一个存在像素点的位置作为所述字符的上侧边界位置,其中,所述预设上侧边界位置与所述索引的目标参考位置的距离为第三预设值;
根据所述像素坐标集合,将到达预设下侧边界位置前最后一个存在像素点的位置作为所述字符的下侧边界位置,其中,所述预设下侧边界位置与所述索引的目标参考位置的距离为第四预设值。
7.如权利要求1所述的文本中字符位置确定方法,其特征在于,所述对所述文本行图片进行文字识别处理,得到存在字符的索引集合,包括:
将所述文本行图片输入至文字识别模型中,得到空白分割字符的概率分布矩阵;
基于所述空白分割字符的概率分布矩阵确定满足预设条件的字符分布矩阵;
根据所述字符分布矩阵构建所述文本行图片中存在字符的索引集合。
8.如权利要求7所述的文本中字符位置确定方法,其特征在于,所述根据所述字符分布矩阵构建所述文本行图片中存在字符的索引集合,包括:
根据所述字符分布矩阵中各字符的位置以及所述文字识别模型的下采样率,确定所述索引集合中各索引的信息,其中,各索引的信息包括索引的范围以及索引的目标参考位置。
9.如权利要求1所述的文本中字符位置确定方法,其特征在于,所述对所述文本行图片进行投影处理,得到各字符投影后的像素坐标集合,包括:
若所述文本行图片包括排列在同一行的多个字符,对所述文本行图片进行纵向投影处理,得到纵向投影矩阵,所述纵向投影矩阵用于表征在文本行图片的各像素点纵向投影后的像素值的信息;
若所述文本行图片包括排列在同一列的多个字符,对所述文本行图片进行横向投影处理,得到横向投影矩阵,所述横向投影矩阵用于表征在文本行图片的各像素点横向投影后的像素值的信息;
基于所述纵向投影矩阵或者所述横向投影矩阵建立所述像素坐标集合。
10.一种文本中字符位置确定装置,其特征在于,包括:获取模块、识别处理模块、投影处理模块以及位置确定模块;
所述获取模块,用于获取待识别的文本行图片,所述文本行图片包括排列在同一行或同一列的多个字符;
所述识别处理模块,用于对所述文本行图片进行文字识别处理,得到存在字符的索引集合,所述索引集合中包括与所述多个字符一一对应的多个索引的信息;
所述投影处理模块,用于对所述文本行图片进行投影处理,得到各字符投影后的像素坐标集合;
所述位置确定模块,用于根据所述索引集合和所述像素坐标集合,确定所述文本行图片中各字符的边界位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211093829.1A CN117671685A (zh) | 2022-09-07 | 2022-09-07 | 一种文本中字符位置确定方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211093829.1A CN117671685A (zh) | 2022-09-07 | 2022-09-07 | 一种文本中字符位置确定方法以及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117671685A true CN117671685A (zh) | 2024-03-08 |
Family
ID=90075907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211093829.1A Pending CN117671685A (zh) | 2022-09-07 | 2022-09-07 | 一种文本中字符位置确定方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117671685A (zh) |
-
2022
- 2022-09-07 CN CN202211093829.1A patent/CN117671685A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114821622B (zh) | 文本抽取方法、文本抽取模型训练方法、装置及设备 | |
WO2018108129A1 (zh) | 用于识别物体类别的方法及装置、电子设备 | |
CN109858333B (zh) | 图像处理方法、装置、电子设备及计算机可读介质 | |
CN113657274B (zh) | 表格生成方法、装置、电子设备及存储介质 | |
CN112597918A (zh) | 文本检测方法及装置、电子设备、存储介质 | |
JP7337203B2 (ja) | 文字生成モデルのトレーニング方法、文字生成方法、装置および機器 | |
US20210056429A1 (en) | Apparatus and methods for converting lineless tables into lined tables using generative adversarial networks | |
CN111598087A (zh) | 不规则文字的识别方法、装置、计算机设备及存储介质 | |
CN115546809A (zh) | 基于单元格约束的表格结构识别方法及其应用 | |
CN113537192A (zh) | 图像检测方法、装置、电子设备及存储介质 | |
CN114495147B (zh) | 识别方法、装置、设备以及存储介质 | |
CN115131803A (zh) | 文档字号的识别方法、装置、计算机设备和存储介质 | |
CN113516697A (zh) | 图像配准的方法、装置、电子设备及计算机可读存储介质 | |
CN111444906B (zh) | 基于人工智能的图像识别方法和相关装置 | |
CN110442719B (zh) | 一种文本处理方法、装置、设备及存储介质 | |
CN114972910B (zh) | 图文识别模型的训练方法、装置、电子设备及存储介质 | |
CN115797955A (zh) | 基于单元格约束的表格结构识别方法及其应用 | |
CN117671685A (zh) | 一种文本中字符位置确定方法以及装置 | |
CN115359502A (zh) | 一种图像处理方法、装置、设备以及存储介质 | |
CN115205845A (zh) | 一种目标检测方法、计算机程序产品及电子设备 | |
CN115937875A (zh) | 文本识别方法及装置、存储介质、终端 | |
CN114663886A (zh) | 文本识别方法、模型的训练方法及装置 | |
CN113920291A (zh) | 基于图片识别结果的纠错方法、装置、电子设备及介质 | |
CN113255668B (zh) | 文本识别方法、装置、电子设备、存储介质 | |
CN114140802B (zh) | 一种文本识别方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |