CN113011132B - 竖排文字识别方法、装置、计算机设备和存储介质 - Google Patents
竖排文字识别方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN113011132B CN113011132B CN202110434869.7A CN202110434869A CN113011132B CN 113011132 B CN113011132 B CN 113011132B CN 202110434869 A CN202110434869 A CN 202110434869A CN 113011132 B CN113011132 B CN 113011132B
- Authority
- CN
- China
- Prior art keywords
- text
- identified
- vertical
- text image
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Input (AREA)
Abstract
本申请实施例属于文字识别领域,应用于智慧城市领域中,涉及一种竖排文字识别方法,包括在接收到待识别文本图像时,扫描待识别文本图像中文字区域的宽度和高度;根据所述文字区域的宽度和高度,确定待识别文本图像的排版类型;将所述待识别文本图像输入到文字识别神经网络模型中;基于所述排版类‑型,采用所述卷积网络层和残差网络层对所述待识别文本图像进行特征提取与维度归一化,得到二维特征序列;采用所述序列识别层对所述二维特征序列进行识别,得到文本识别结果。本申请还提供一种竖排文字识别装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,待识别文本图像数据还存储于区块链中。采用本方法提高了对竖排文本的识别精度。
Description
技术领域
本申请涉及文字识别领域,特别是涉及一种竖排文字识别方法、装置、计算机设备和存储介质。
背景技术
深度学习的发展推助了文字识别的精度,使得文字识别技术得以应用在各种工业场景中,如发票智能识别等等。现有经典文字识别模型如CRNN,是专门为识别水平排列文字行而设计的,不能够识别竖直排列的文字。为了能够识别竖排文字,现有一些技术方案是从数据角度入手,不改变神经网络的结果,将竖直文字图像进行左转90度,转变为水平图像后进行识别。
这种方法虽然技术上可行,但水平文字的特征和左转90度后文字图像的特征是不同的,这需要额外准备大量竖直排列文字图像进行识别模型的训练。另外强制将不同的文字图像特征映射到同一字符类别上,会使得识别模型产生歧义,导致竖排文本的识别精度不高。
发明内容
基于此,针对上述技术问题,本申请提供一种竖排文字识别方法、装置、计算机设备及存储介质,以解决现有技术中竖排文本的识别精度不高的技术问题。
一种竖排文字识别方法,所述方法包括:
在接收到待识别文本图像时,扫描所述待识别文本图像中文字区域的宽度和高度;
根据所述文字区域的宽度和高度,确定所述待识别文本图像的排版类型,其中,所述排版类型包括水平文本和竖排文字;
将所述待识别文本图像输入到文字识别神经网络模型中,其中,所述文本识别神经网络模型包括卷积网络层、残差网络层和序列识别层,不同排版类型对应的所述残差网络层的滑动步长不同;
基于所述排版类型,采用所述卷积网络层和残差网络层对所述待识别文本图像进行特征提取与维度归一化,得到二维特征序列;
采用所述序列识别层对所述二维特征序列进行识别,得到文本识别结果。
一种竖排文字识别装置,所述装置包括:
扫描模块,用于在接收到待识别文本图像时,扫描所述待识别文本图像中文字区域的宽度和高度;
确定模块,用于根据所述文字区域的宽度和高度,确定所述待识别文本图像的排版类型,其中,所述排版类型包括水平文本和竖排文字;
输入模块,用于将所述待识别文本图像输入到文字识别神经网络模型中,其中,所述文本识别神经网络模型包括卷积网络层、残差网络层和序列识别层,不同排版类型对应的所述残差网络层的滑动步长不同;
提取模块,用于基于所述排版类型,采用所述卷积网络层和残差网络层对所述待识别文本图像进行特征提取与维度归一化,得到二维特征序列;
识别模块,用于采用所述序列识别层对所述二维特征序列进行识别,得到文本识别结果。
一种计算机设备,包括存储器和处理器,以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述竖排文字识别方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述竖排文字识别方法的步骤。
上述竖排文字识别方法、装置、计算机设备和存储介质,通过根据识别到的待识别文本图像中的文字区域的宽度和高度确定图像的排版类型,然后根据排版类型确定文字识别神经网络模型中残差网络层的滑动步长,并对待识别文本图像的特征进行提取和维度归一化,并提取得到二维特征序列,然后文字识别网络模型中的序列识别层对得到二维特征序列进行识别,得到文本识别结果。本申请通过输入的待识别文字图像的排版类型,确定文字识别网络模型中的卷积核的移动步长,不改变卷积核本身的参数,不影响特征的提取,使得竖排文字在未经旋转的前提下,同一字符竖排文本的特征和横排的特征相同,使得特征得到复用,解决了现有技术中竖排文字识别不准确的技术问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为竖排文字识别方法的应用环境示意图;
图2为竖排文字识别方法的流程示意图;
图3为竖排文字识别装置的示意图;
图4为一个实施例中计算机设备的示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的竖排文字识别方法,可以应用于如图1所示的应用环境中。其中,该应用环境可以包括终端102、网络以及服务端104,网络用于在终端102和服务端104之间提供通信链路介质,网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端102通过网络与服务端104交互,以接收或发送消息等。终端102上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端102可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group AudioLayer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务端104可以是提供各种服务的服务器,例如对终端102上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的竖排文字识别方法一般由服务端/终端执行,相应地,竖排文字识别装置一般设置于服务端/终端设备中。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本申请可应用于智慧城市领域中,例如智慧图书馆或者智慧政务中,用于图书馆古籍电子化、文字识别等场景中,从而推动智慧城市的建设。
应该理解,图1中的终端、网络和服务端的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
其中,终端102通过网络与服务端104进行通信。服务端104接收终端102发送来的待识别文本图像,并扫描图像中文字区域的宽度和高度,并根据宽度和高度确定图像的排版类型,然后根据排版类型确定文字识别神经网络模型中残差网络层的滑动步长,并对待识别文本图像的特征进行提取和维度归一化,并提取得到二维特征序列,然后文字识别网络模型中的序列识别层对得到二维特征序列进行识别,得到文本识别结果再返回给终端102。其中,终端102和服务端104之间通过网络进行连接,该网络可以是有线网络或者无线网络,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务端104可以用独立的服务器或者是多个组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种竖排文字识别方法,以该方法应用于图1中的服务端为例进行说明,包括以下步骤:
步骤202,在接收到待识别文本图像时,扫描待识别文本图像中文字区域的宽度和高度。
在一些实施例中,本申请的技术方案可以应用于需要识别图像、书籍或者报纸中的竖排文字的场景,
在接收到待识别文本图像时,可以通过边缘检测的方式确定文字区域,进而获取待识别文本图像中文字区域的宽度和高度。
其中,在本实施例中的文字区域是指单行或者单列的文字区域。一般地,扫描到的文字所在区域至少包括一行或者一列,在本实施例中,会扫描得到至少一列或者一行的文字区域,但会根据各文字区域之间的距离判断待识别文本图像上文字区域的排布,然后选择计算各文字区域的平均宽度和高度,并将计算该平均宽度和高度之间的比例,作为文字区域的宽度和高度来用于判断排版类型的目标比例。
具体地,文字区域的宽度和高度是指识别到的文字区域的宽度和高度,此外,文字区域检测的实现可以通过canny边缘检测算法,一般会先进行图像降噪,然后进行图像梯度,得到文字可能的边缘后再进行非极大值抑制,将由多个像素宽的可能边缘降为单个像素边缘,得到一个包括文字区域的边缘区域。
进一步地,为了提高边缘检测的准确度,还会在单个边缘的基础上,设置一个双阈值,即:
在通过canny边缘检测算法确定待识别文本图像中文字区域边缘,对文字区域边缘进行极大值抑制,得到包括区域单边缘的文字区域之后,将区域单边缘中大于高阈值的像素设为强边缘像素,并删除区域单边缘中小于低阈值的像素;将低阈值和高阈值之间的像素设为弱边缘像素,得到强边缘像素和弱边缘像素对应的文字区域。
具体地,将灰度变化大于高阈值的像素边缘中的像素设置为请边缘像素,反之,低于低阈值的像素进行剔除。
进一步地,还会再将低阈值和高阈值之间的像素设置为弱边缘。
其中,设置弱边缘的目的是为了只保留强边缘像素的话,有些边缘会不闭合,所以需要从低阈值到高阈值之中的像素对这些不闭合的地方进行补充,使得边缘尽可能闭合。
可选地,本申请还可以通过将图像转化为灰度图像后,进行纵向边缘检测,然后在通过等值进行分割、动态列分割、相邻矩形区域合并并确定候选文字区域,然后对候选文字区域进行灰度直方图分析,根据二值图像生成四邻域的几何形状确定最终文字区域效果。
其中,边缘检测是图像处理和计算机视觉中的基本问题,边缘检测的目的是标识数字图像中亮度变化明显的点,图像属性中的显著变化通常反映了属性的重要事件和变化。这些包括:
1)深度上的不连续;
2)表面方向不连接;
3)物质属性变化和场景照明变化。
步骤204,根据文字区域的宽度和高度,确定待识别文本图像的排版类型,其中,排版类型包括水平文本和竖排文字。
在本实施例中的一些可选方式中,判断待识别文本图像中的排版类型,具体地:计算文字区域的宽度与高度的比例,得到目标比例;若目标比例不小于预设阈值,则确定待识别文本图像的排版类型为竖排文字;若目标比例小于预设阈值,则确定待识别文本图像的排版类型为水平文字。
在一具体实施方式中,预设阈值为1.5,在宽度和高度比例不小于1.5时,确认排版类型为竖排文字,在宽度和高度比例小于1.5时,确定为水平文字。
步骤206,将待识别文本图像输入到文字识别神经网络模型中,其中,文本识别神经网络模型包括卷积网络层、残差网络层和序列识别层,不同排版类型对应的残差网络层的滑动步长不同。
将待识别文本图像输入文字识别神经网络模型中后,卷积网络层对待识别文本图像进行卷积处理,提取待识别文本图像的维度特征。
可选地,残差网络层采用若干resblock组成,由于采用了resblock,残差层网络对文字特征的提取能力优于原CRNN(中文识别训练模型),同时没有bottleneck等瓶颈结构,对文字识别更加有效,同时,通过只改变残差网络层中滑动步长的方式使得竖排和横排得到文字特征一致,卷积网络所学习到的水平文字的特征可复用到竖排文字中,不需要再训练阶段花费高昂的成本准备大量竖排旋转后的图像训练网络。
另外,本实施例丢弃了作用不大的RNN层,网络推断速度更快。
其中,滑动步长为卷积核每次的移动距离,用于扫描识别文字图像。当为竖排时,滑动步长可以设为1,当为横排时,滑动步长可以设为2。滑动步长的具体设置可以根据具体的需求训练得到,本实施例不错限定。
因为在传统意义上,因为排版特性,竖排类型的待识别文本图像会比横排类型的更小,即其对应的矩阵维度更小,例如横排的维度是20*35,但竖排的可能只有20*30,为了避免出现未扫的空间不足以提供给卷积核,以及卷积运算量过大的问题,可以通过调整滑动步长的方式解决以上问题。
可选地,序列识别层为CTC,全称为Connectionist temporal classification,是一种时序类数据的分类算法,用来解决输入和输出序列长度不一、无法对齐的问题。
进一步地,滑动步长的确定方式为:
在接收待识别文本图像之前,要生成包括竖排文字的竖排训练样本图像,首先要计算字符串中预设字体占用的矩形空间;基于矩形空间,确定字符串中第一个字符的起始位置和相邻两个字符在高度方向之间的间隔距离;采用从上至下的方式,按照间隔距离进行字符串的输出,得到按间隔距离排列的竖排文字;基于竖排文字和背景图片,生成竖排文字图像,并对竖排文字图像进行裁剪,得到竖排训练样本图像;基于竖排样本图像,对文字识别神经网络模型进行训练,得到竖排文字对应的滑动步长。
其中,字符串是指随机设置的一段文字,例如“展示中华文化魅力的同时”,预设字体是该字符串在背景图像上的展示字体,然后计算该字符串中的第一个字符的起始位置和相邻两个字符之间的上下之间的间隔距离,并采用从上至下的方式,按照该间隔距离进行文字串的输入,得到按照间隔距离排布的竖排文字。基于该竖排文字,随机获取背景颜色与预设字体的字体颜色不同的图片作为背景图像,生成竖排文字图像,并对得到的竖排文字图像进行随意裁剪,以提高样本图像的多样性;最后基于竖排训练样本图像对文字识别神经网络模型进行训练,得到竖排文字对应的滑动步长。
步骤208,基于排版类型,采用卷积网络层和残差网络层对待识别文本图像进行特征提取与维度归一化,得到二维特征序列。
在实施例的一些可选方式中,基于排版类型,采用卷积网络层和残差网络层对待识别文本图像进行特征提取与维度归一化,得到二维特征序列包括:
根据排版类型,确定残差网络层中的滑动步长;采用卷积网络层和残差网络层对待识别文本图像进行特征提取和维度归一化,得到三维维度的特征序列,其中,三维维度的特征序列中包括至少一个归一化为1的维度;删除归一化为1的维度,得到二维特征序列。
此外,因为传统的卷积层网络在进行信息传递时,或多或少会存在信息丢失、损耗等问题,而残差网络层就可以在某种程度上解决这个问题,通过直接将输入信息绕道传到输出,保护信息的完整性,整个网络则只需要学习输入、输出的差别的一部分,可以简化学习的目标和难度。而且,对于相同数量的网络层,通过残差网络层还减少了参数量,因此可以拓展成更深的模型,降低模型的运算量。
本实施例基于可变滑动步长的网络结构,根据输入的不同,水平文本经过网络后,高度由32变为1,宽度缩放为原来的1/4;数值文本宽度有32变为1,高度缩放为原来的1/4。经过Mac-to-sequence(特征图切分)后,丢弃维度为1的坐标轴,并重排列,使得三维变成二维,横排和竖排得到都是512维度的特征序列。
值得说明的是,由于只改变了卷积核移动的步长,并未改变卷积核本身的参数,所以并不影响特征的提取。文字并未进行旋转,同一字符竖排文本的特征和横排的特征相同,特征得到复用,有利于提高文字识别的效率。
步骤210,采用序列识别层对二维特征序列进行识别,得到文本识别结果。
应理解,水平文字和数值文字,得到的二维特征序列相同,因而,采用同一序列识别层,即可实现对不同类型的文字进行识别。
在一些实施例中,竖排与横排文本主要体现在尺寸的互为转置,如果不改变网络结构,只能是旋转90度后进行识别,由于旋转后的文字的方向由正向变为横向,同一文字的特征发生了改变,特征无法复用,使得在训练阶段就需要与横排文本同样数量的数据对识别模型进行训练。
考虑到不改变卷积层参数,本实施例只改变卷积核滑动步长的方式可保证提取的图像特征具有一致性本实施例基于resblock涉及了一种根据输入的图片类型可变滑动步长的卷积网络结构,就可以丢弃作用现有技术中作用不大的RNN层,使得网络推断速度大幅提升。
需要强调的是,为进一步保证上述待识别文本图像信息的私密和安全性,上述待识别文本图像还可以存储于一区块链的节点中。
上述竖排文字识别方法中,通过根据识别到的待识别文本图像中的文字区域的宽度和高度确定图像的排版类型,然后根据排版类型确定文字识别神经网络模型中残差网络层的滑动步长,并对待识别文本图像的特征进行提取和维度归一化,并提取得到二维特征序列,然后文字识别网络模型中的序列识别层对得到二维特征序列进行识别,得到文本识别结果。本申请通过输入的待识别文字图像的排版类型,确定文字识别网络模型中的卷积核的移动步长,不改变卷积核本身的参数,不影响特征的提取,使得竖排文字在未经旋转的前提下,同一字符竖排文本的特征和横排的特征相同,使得特征得到复用,解决了现有技术中竖排文字识别不准确的技术问题。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种竖排文字识别装置,该竖排文字识别装置与上述实施例中竖排文字识别方法一一对应。该竖排文字识别装置包括:
扫描模块302,用于在接收到待识别文本图像时,扫描待识别文本图像中文字区域的宽度和高度;
确定模块304,用于根据文字区域的宽度和高度,确定待识别文本图像的排版类型,其中,排版类型包括水平文本和竖排文字;
输入模块306,用于将待识别文本图像输入到文字识别神经网络模型中,其中,文本识别神经网络模型包括卷积网络层、残差网络层和序列识别层,不同排版类型对应的残差网络层的滑动步长不同;
提取模块308,用于基于排版类型,采用卷积网络层和残差网络层对待识别文本图像进行特征提取与维度归一化,得到二维特征序列;
识别模块310,用于采用序列识别层对二维特征序列进行识别,得到文本识别结果。
进一步地,确定模块304,包括:
比例计算子模块,用于计算文字区域的宽度与高度的比例,得到目标比例;
第一类型确定子模块,用于若目标比例不小于预设阈值,则确定待识别文本图像的排版类型为竖排文字;
第二类型确定子模块,用于若目标比例小于预设阈值,则确定待识别文本图像的排版类型为水平文字。
进一步地,提取模块308,包括:
步长确定子模块,用于根据排版类型,确定残差网络层中的滑动步长;
特征提取子模块,用于采用卷积网络层和残差网络层对待识别文本图像进行特征提取和维度归一化,得到三维维度的特征序列,其中,三维维度的特征序列中致函至少一个归一化为1的维度;
特征删除子模块,用于删除归一化为1的维度,得到二维特征序列。
进一步地,扫描模块302,包括:
边缘检测子模块,用于通过canny边缘检测算法确定待识别文本图像中文字区域边缘;
边缘抑制子模块,用于对文字区域边缘进行极大值抑制,得到包括区域单边缘的文字区域。
进一步地,在边缘抑制子模块之后,还包括:
第一像素设定单元,用于将区域单边缘中大于高阈值的像素设为强边缘像素,并删除区域单边缘中小于低阈值的像素;
第二像素设定单元,用于将低阈值和高阈值之间的像素设为弱边缘像素,得到强边缘像素和弱边缘像素对应的文字区域。
进一步地,在扫描模块302之前,还包括:
空间计算模块,用于计算字符串中预设字体占用的矩形空间;
距离设定模块,用于基于矩形空间,确定字符串中第一个字符的起始位置和相邻两个字符在高度方向之间的间隔距离;
文字排列模块,用于采用从上至下的方式,按照间隔距离进行字符串的输出,得到按间隔距离排列的竖排文字;
图像裁剪模块,用于基于竖排文字和背景图片,生成竖排文字图像,并对竖排文字图像进行裁剪,得到竖排训练样本图像;
步长训练模块,用于基于竖排样本图像,对文字识别神经网络模型进行训练,得到竖排文字对应的滑动步长。
需要强调的是,为进一步保证上述待识别文本图像信息的私密和安全性,上述待识别文本图像还可以存储于一区块链的节点中。
上述竖排文字识别装置,通过根据识别到的待识别文本图像中的文字区域的宽度和高度确定图像的排版类型,然后根据排版类型确定文字识别神经网络模型中残差网络层的滑动步长,并对待识别文本图像的特征进行提取和维度归一化,并提取得到二维特征序列,然后文字识别网络模型中的序列识别层对得到二维特征序列进行识别,得到文本识别结果。本申请通过输入的待识别文字图像的排版类型,确定文字识别网络模型中的卷积核的移动步长,不改变卷积核本身的参数,不影响特征的提取,使得竖排文字在未经旋转的前提下,同一字符竖排文本的特征和横排的特征相同,使得特征得到复用,解决了现有技术中竖排文字识别不准确的技术问题。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储待识别文本图像。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种竖排文字识别方法。本实施例通过根据识别到的待识别文本图像中的文字区域的宽度和高度确定图像的排版类型,然后根据排版类型确定文字识别神经网络模型中残差网络层的滑动步长,并对待识别文本图像的特征进行提取和维度归一化,并提取得到二维特征序列,然后文字识别网络模型中的序列识别层对得到二维特征序列进行识别,得到文本识别结果。本申请通过输入的待识别文字图像的排版类型,确定文字识别网络模型中的卷积核的移动步长,不改变卷积核本身的参数,不影响特征的提取,使得竖排文字在未经旋转的前提下,同一字符竖排文本的特征和横排的特征相同,使得特征得到复用,解决了现有技术中竖排文字识别不准确的技术问题。
其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机可读指令,计算机可读指令被处理器执行时实现上述实施例中竖排文字识别方法的步骤,例如图2所示的步骤202至步骤210,或者,处理器执行计算机可读指令时实现上述实施例中竖排文字识别装置的各模块/单元的功能,例如图3所示模块302至模块310的功能。
本实施例通过根据识别到的待识别文本图像中的文字区域的宽度和高度确定图像的排版类型,然后根据排版类型确定文字识别神经网络模型中残差网络层的滑动步长,并对待识别文本图像的特征进行提取和维度归一化,并提取得到二维特征序列,然后文字识别网络模型中的序列识别层对得到二维特征序列进行识别,得到文本识别结果。本申请通过输入的待识别文字图像的排版类型,确定文字识别网络模型中的卷积核的移动步长,不改变卷积核本身的参数,不影响特征的提取,使得竖排文字在未经旋转的前提下,同一字符竖排文本的特征和横排的特征相同,使得特征得到复用,解决了现有技术中竖排文字识别不准确的技术问题。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形、改进或者对部分技术特征进行等同替换,而这些修改或者替换,并不使相同技术方案的本质脱离本发明个实施例技术方案地精神和范畴,都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种竖排文字识别方法,其特征在于,所述方法包括:
在接收到待识别文本图像时,扫描所述待识别文本图像中文字区域的宽度和高度;
根据所述文字区域的宽度和高度,确定所述待识别文本图像的排版类型,其中,所述排版类型包括水平文本和竖排文字;
将所述待识别文本图像输入到文字识别神经网络模型中,其中,所述文字识别神经网络模型包括卷积网络层、残差网络层和序列识别层,不同排版类型对应的所述残差网络层的滑动步长不同;
基于所述排版类型,采用所述卷积网络层和残差网络层对所述待识别文本图像进行特征提取与维度归一化,得到二维特征序列;
采用所述序列识别层对所述二维特征序列进行识别,得到文本识别结果;
所述基于所述排版类型,采用所述卷积网络层和残差网络层对所述待识别文本图像进行特征提取与维度归一化,得到二维特征序列,包括:
根据所述排版类型,确定残差网络层中的滑动步长;
采用所述卷积网络层和残差网络层对所述待识别文本图像进行特征提取和维度归一化,得到三维维度的特征序列,其中,所述三维维度的特征序列中包括至少一个归一化为1的维度;
删除归一化为1的维度,得到所述二维特征序列;
在所述在接收到待识别文本图像时,扫描所述待识别文本图像中文字区域的宽度和高度之前,还包括:
计算字符串中预设字体占用的矩形空间;
基于所述矩形空间,确定所述字符串中第一个字符的起始位置和相邻两个字符在高度方向之间的间隔距离;
采用从上至下的方式,按照所述间隔距离进行字符串的输出,得到按所述间隔距离排列的竖排文字;
基于所述竖排文字和背景图片,生成竖排文字图像,并对所述竖排文字图像进行裁剪,得到竖排训练样本图像;
基于所述竖排训练样本图像,对所述文字识别神经网络模型进行训练,得到竖排文字对应的滑动步长。
2.根据权利要求1所述的方法,其特征在于,所述根据所述文字区域的宽度和高度,确定所述待识别文本图像的排版类型,包括:
计算所述文字区域的宽度与高度的比例,得到目标比例;
若所述目标比例不小于预设阈值,则确定所述待识别文本图像的排版类型为竖排文字;
若所述目标比例小于所述预设阈值,则确定所述待识别文本图像的排版类型为水平文字。
3.根据权利要求1所述的方法,其特征在于,所述在接收到待识别文本图像时,扫描所述待识别文本图像中文字区域的宽度和高度,包括:
通过canny边缘检测算法确定所述待识别文本图像中文字区域边缘;
对所述文字区域边缘进行极大值抑制,得到包括区域单边缘的文字区域。
4.根据权利要求3所述的方法,其特征在于,在对所述文字区域边缘进行极大值抑制,得到包括区域单边缘的文字区域之后,还包括:
将所述区域单边缘中大于高阈值的像素设为强边缘像素,并删除所述区域单边缘中小于低阈值的像素;
将所述低阈值和所述高阈值之间的像素设为弱边缘像素,得到所述强边缘像素和所述弱边缘像素对应的文字区域。
5.根据权利要求1所述的方法,其特征在于,所述待识别文本图像存储于区块链中。
6.一种竖排文字识别装置,其特征在于,包括:
扫描模块,用于在接收到待识别文本图像时,扫描所述待识别文本图像中文字区域的宽度和高度;
确定模块,用于根据所述文字区域的宽度和高度,确定所述待识别文本图像的排版类型,其中,所述排版类型包括水平文本和竖排文字;
输入模块,用于将所述待识别文本图像输入到文字识别神经网络模型中,其中,所述文字识别神经网络模型包括卷积网络层、残差网络层和序列识别层,不同排版类型对应的所述残差网络层的滑动步长不同;
提取模块,用于基于所述排版类型,采用所述卷积网络层和残差网络层对所述待识别文本图像进行特征提取与维度归一化,得到二维特征序列;
识别模块,用于采用所述序列识别层对所述二维特征序列进行识别,得到文本识别结果;
所述基于所述排版类型,采用所述卷积网络层和残差网络层对所述待识别文本图像进行特征提取与维度归一化,得到二维特征序列,包括:
根据所述排版类型,确定残差网络层中的滑动步长;
采用所述卷积网络层和残差网络层对所述待识别文本图像进行特征提取和维度归一化,得到三维维度的特征序列,其中,所述三维维度的特征序列中包括至少一个归一化为1的维度;
删除归一化为1的维度,得到所述二维特征序列;
在所述在接收到待识别文本图像时,扫描所述待识别文本图像中文字区域的宽度和高度之前,还包括:
计算字符串中预设字体占用的矩形空间;
基于所述矩形空间,确定所述字符串中第一个字符的起始位置和相邻两个字符在高度方向之间的间隔距离;
采用从上至下的方式,按照所述间隔距离进行字符串的输出,得到按所述间隔距离排列的竖排文字;
基于所述竖排文字和背景图片,生成竖排文字图像,并对所述竖排文字图像进行裁剪,得到竖排训练样本图像;
基于所述竖排训练样本图像,对所述文字识别神经网络模型进行训练,得到竖排文字对应的滑动步长。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现权利要求1至5中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110434869.7A CN113011132B (zh) | 2021-04-22 | 2021-04-22 | 竖排文字识别方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110434869.7A CN113011132B (zh) | 2021-04-22 | 2021-04-22 | 竖排文字识别方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113011132A CN113011132A (zh) | 2021-06-22 |
CN113011132B true CN113011132B (zh) | 2023-07-21 |
Family
ID=76389269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110434869.7A Active CN113011132B (zh) | 2021-04-22 | 2021-04-22 | 竖排文字识别方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113011132B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115147852A (zh) * | 2022-03-16 | 2022-10-04 | 北京有竹居网络技术有限公司 | 一种古籍识别方法、装置、存储介质及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271910A (zh) * | 2018-09-04 | 2019-01-25 | 阿里巴巴集团控股有限公司 | 一种文字识别、文字翻译方法和装置 |
CN109948714A (zh) * | 2019-03-22 | 2019-06-28 | 华南理工大学 | 基于残差卷积和递归神经网络的中文场景文本行识别方法 |
CN110991445A (zh) * | 2019-11-21 | 2020-04-10 | 北京达佳互联信息技术有限公司 | 竖排文字识别方法、装置、设备及介质 |
CN111091124A (zh) * | 2019-12-04 | 2020-05-01 | 吉林大学 | 一种书脊文字识别方法 |
WO2020199704A1 (zh) * | 2019-04-03 | 2020-10-08 | 北京市商汤科技开发有限公司 | 文本识别 |
CN112215223A (zh) * | 2020-10-16 | 2021-01-12 | 清华大学 | 基于多元注意力机制的多方向场景文字识别方法及系统 |
-
2021
- 2021-04-22 CN CN202110434869.7A patent/CN113011132B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271910A (zh) * | 2018-09-04 | 2019-01-25 | 阿里巴巴集团控股有限公司 | 一种文字识别、文字翻译方法和装置 |
CN109948714A (zh) * | 2019-03-22 | 2019-06-28 | 华南理工大学 | 基于残差卷积和递归神经网络的中文场景文本行识别方法 |
WO2020199704A1 (zh) * | 2019-04-03 | 2020-10-08 | 北京市商汤科技开发有限公司 | 文本识别 |
CN110991445A (zh) * | 2019-11-21 | 2020-04-10 | 北京达佳互联信息技术有限公司 | 竖排文字识别方法、装置、设备及介质 |
CN111091124A (zh) * | 2019-12-04 | 2020-05-01 | 吉林大学 | 一种书脊文字识别方法 |
CN112215223A (zh) * | 2020-10-16 | 2021-01-12 | 清华大学 | 基于多元注意力机制的多方向场景文字识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113011132A (zh) | 2021-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111738244B (zh) | 图像检测方法、装置、计算机设备和存储介质 | |
CN111640130A (zh) | 表格还原方法及装置 | |
CN112686243A (zh) | 智能识别图片文字的方法、装置、计算机设备及存储介质 | |
CN112330331A (zh) | 基于人脸识别的身份验证方法、装置、设备及存储介质 | |
CN115578735B (zh) | 文本检测方法和文本检测模型的训练方法、装置 | |
CN113240071B (zh) | 图神经网络处理方法、装置、计算机设备及存储介质 | |
WO2022142032A1 (zh) | 手写签名校验方法、装置、计算机设备及存储介质 | |
CN112419183B (zh) | 缩放图像还原方法、装置、计算机设备及存储介质 | |
CN113111880B (zh) | 证件图像校正方法、装置、电子设备及存储介质 | |
CN112016502B (zh) | 安全带检测方法、装置、计算机设备及存储介质 | |
CN112581344A (zh) | 一种图像处理方法、装置、计算机设备及存储介质 | |
CN113673519A (zh) | 基于文字检测模型的文字识别方法及其相关设备 | |
CN111177450B (zh) | 一种图像检索云识别方法、系统及计算机可读存储介质 | |
CN114049646B (zh) | 一种银行卡识别方法、装置、计算机设备及存储介质 | |
CN112651399B (zh) | 检测倾斜图像中同行文字的方法及其相关设备 | |
CN113887527B (zh) | 人脸图像处理方法、装置、计算机设备及存储介质 | |
CN113011132B (zh) | 竖排文字识别方法、装置、计算机设备和存储介质 | |
CN111783781B (zh) | 基于产品协议字符识别的恶意条款识别方法、装置、设备 | |
CN112686847B (zh) | 身份证图像拍摄质量评价方法、装置、计算机设备和介质 | |
CN112395834B (zh) | 基于图片输入的脑图生成方法、装置、设备及存储介质 | |
CN112036501A (zh) | 基于卷积神经网络的图片的相似度检测方法及其相关设备 | |
CN112395450A (zh) | 图片文字检测方法、装置、计算机设备及存储介质 | |
CN113920527B (zh) | 一种文本识别方法、装置、计算机设备及存储介质 | |
CN114638810B (zh) | 一种文档质量分析方法、装置、计算机设备及存储介质 | |
CN114820575B (zh) | 图像验证方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |