CN110647829A - 一种票据的文本识别方法及系统 - Google Patents
一种票据的文本识别方法及系统 Download PDFInfo
- Publication number
- CN110647829A CN110647829A CN201910864930.4A CN201910864930A CN110647829A CN 110647829 A CN110647829 A CN 110647829A CN 201910864930 A CN201910864930 A CN 201910864930A CN 110647829 A CN110647829 A CN 110647829A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- recognition
- bill
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
本发明提供了一种票据的文本识别方法及系统,该方法包括:获取票据文本图像;采用目标文本检测模型对票据文本图像进行文本区域检测,生成目标文本图像;采用目标文本识别算法对目标文本图像进行文本识别,生成文本识别结果。通过深度学习神经网络模型对票据文本图像进行检测与识别,本识别方法简单,无需手工提取特征,能够更快速的得到有效的文本检测区域,最终提高整体检测识别效率与精准度,实现图像文本数据的结构化提取和存储,为后续的检测分类提供有效的支撑,进一步提升票据归档分类的电子化和智能化水平。
Description
技术领域
本发明涉及文本识别技术领域,具体涉及一种票据的文本识别方法及系统。
背景技术
电力系统营销部门进行电费对账的过程中需要对银行票据信息进行归档,方便后续进行查找,目前,对于票据的归档方法主要依靠人力进行梳理,耗费大量人力和时间,随着深度学习成功应用于图像文本识别领域,可以自动学习出图像的特征,大幅减少了计算开销。并且,受到银行票据本身复杂性的影响,面对复杂票据时,目前已有的基于深度学习的检测识别方法复杂,导致检测与识别的速度降低,并且造成票据识别的精准率难以保障。
发明内容
有鉴于此,本发明实施例提供了一种票据的文本识别方法及系统,以解决现有技术中的检测识别方法复杂,导致检测与识别的速度降低,鲁棒性不足,造成票据识别的精准率难以保障的问题。
本发明实施例提供了一种票据的文本识别方法,包括:获取票据文本图像;采用目标文本检测模型对所述票据文本图像进行文本区域检测,生成目标文本图像;采用目标文本识别算法对所述目标文本图像进行文本识别,生成文本识别结果。
可选地,所述目标文本检测模型为CRAFT模型,所述采用目标文本检测模型对所述票据文本图像进行文本区域检测,生成目标文本图像,包括:将所述票据文本图像输入所述CRAFT模型,生成两个像素预测概率图;根据预设像素阈值对两个所述像素预测概率图中各像素点进行筛选,生成各候选像素点;根据各所述候选像素点,确定所述票据文本图像对应的文本区域的位置信息;根据所述文本区域的位置信息,生成所述目标文本图像。
可选地,所述采用目标文本识别算法对所述目标文本图像进行文本识别,生成文本识别结果,包括:根据所述目标文本识别算法对所述目标文本图像进行识别,生成序列化文本特征;根据预设时间步对所述序列化文本特征进行预测计算,得到文本预测序列;根据连接时间分类器对所述文本预测序列进行转录解码,生成所述文本识别结果。
可选地,所述根据所述目标文本识别算法对所述目标文本图像进行识别,生成序列化文本特征,包括:将所述目标文本图像输入卷积神经网络,获得所述目标文本图像的多个特征向量;将各所述特征向量分别输入循环神经网络,生成所述序列化文本特征,所述循环神经网络堆叠有多个双向长短期记忆神经网络。
可选地,所述的一种票据的文本识别方法,还包括:采用预设的图像分割算法去除所述票据文本图像的影印数据;采用霍夫直线检测算法去除所述票据文本图像的直线,生成待检测文本图像。
可选地,所述在所述采用目标文本检测模型对所述票据文本图像进行文本区域检测,生成目标文本图像之后,在所述采用目标文本识别算法对所述目标文本图像进行文本识别之前,所述方法还包括:根据所述待检测文本图像对各所述候选像素点进行扩张与填充,得到所述文本区域。
可选地,所述的票据的文本识别方法,还包括:利用预设的训练数据集对所述目标文本检测模型进行训练。
本发明实施例还提供了一种票据的文本识别系统,包括:获取模块,用于获取票据文本图像;目标文本图像生成模块,采用目标文本检测模型对所述票据文本图像进行文本区域检测,生成目标文本图像;识别模块,采用目标文本识别算法对所述目标文本图像进行文本识别,生成文本识别结果。
本发明实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,从而执行本发明实施例提供的票据的文本识别方法。
本发明实施例还提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,用于所述计算机指令执行本发明实施例提供的票据的文本识别方法。
本发明技术方案,具有如下优点:
本发明实施例提供了一种票据的文本识别方法,通过深度学习神经网络模型对票据文本图像进行检测与识别,本识别方法简单,无需手工提取特征,更快速的得到有效的文本检测区域,最终提高整体检测识别效率与精准度,实现图像文本数据的结构化提取和存储,为后续的检测分类提供有效的支撑,进一步提升票据归档分类的电子化和智能化水平。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中票据的文本识别方法的流程图;
图2为本发明实施例中识别目标文本图像的流程图;
图3为本发明实施例中票据的文本识别过程的示意图;
图4为本发明实施例中票据的文本识别系统的示意图;
图5为本发明实施例中的电子设备的结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本发明实施例提供了一种票据的文本识别方法,如图1所示,该票据的文本识别方法具体包括:
步骤S1:获取票据文本图像。在实际应用中,此票据文本图像包括很多种类,例如:发票、提单、汇票、银行本票和支票等等,本发明实施例中主要对电力系统营销领域应用于电费的对账核销、电子化归档的银行回单进行举例说明,但本发明并不以此为限。
步骤S2:采用目标文本检测模型对票据文本图像进行文本区域检测,生成目标文本图像。由于获取得到的票据文本图像中包含有大量的文本和图像信息,其中,用户关注的文本信息可能仅存在于特定的某些区域,而其他区域的内容属于无关信息,因此需要进行文本区域检测,以提取出用户所关注的文本信息区域,减小图像处理范围,进而提高后续识别过程的准确率与识别速度。
具体地,在一实施例中,上述的步骤S2中的目标文本检测模型为CRAFT模型,具体包括如下步骤:
步骤S21:将票据文本图像输入CRAFT模型,生成两个像素预测概率图。在实际应用中,为了准确识别票据扫描图像中的文本,实现图像文本数据的结构化提取和存储,减少人工辨识和分类的工作量,在本发明实施例中采用CRAFT模型,用于对文本检测的字符区域识别实现图像中文本区域的检测,将票据文本图像输入到CRAFT模型,运算生成的是两张像素预测概率图。其中,CRAFT模型利用像素属于字符实例的概率和像素属于相连字符的概率,从字符到文本行,以符合人类视觉对文本的感知过程进行文档文本实例检测,而且利用该模型还具备没有复杂后处理的优点。
步骤S22:根据预设像素阈值对两个像素预测概率图中各像素点进行筛选,生成各候选像素点。在实际应用中,可以根据先验经验由人工对两张像素预测概率图分别设定预设像素阈值,以筛选出多个候选像素点,候选像素点定义为在两张像素预测概率图中,模型预测值都大于预设像素阈值的像素点,需要说明的是,预设像素阈值可以根据实际需要进行调整,本发明并不对此进行限定。
步骤S23:根据各候选像素点,确定票据文本图像对应的文本区域的位置信息。在实际应用中,通过各个候选像素点,然后对其位置信息进行确定,进而能够检测出票据文本图像对应的检测文本区域,在此区域进行一定的操作然后用于最后的文本识别,确定一个最小区域有利于后续识别速度与识别准确率的提升,例如:各个候选像素点确定后,可以根据边缘部分的候选像素点确定一个最小外接矩形,最小外接矩形要包含所有候选像素点,其中,组成此最小外接矩形的边缘的像素点的位置信息就是票据文本图像对应的文本区域的位置信息,需要说明的是,本发明实施例以最小外接矩形进行举例说明,在实际应用中,也可以组成别的形状或区域,本发明并不以此为限。
步骤S24:根据文本区域的位置信息,生成目标文本图像。得到文本区域的位置信息后,使用计算机图形学处理方法,裁剪原始的票据图像得到每一文本区域中的文本图片,得到目标文本图像,用于进行接下来的文本识别,例如:在上述确定了包围各候选像素点的最小外接矩形区域后,就可以根据此最小外接矩形对原始的票据文本图像进行剪裁,需要说明的是,本发明实施例中使用计算机图形学处理方法裁剪原始的票据图像,也可以使用其他方法对原图进行剪裁,只要能达到同样的目的即可,本发明并不以此为限。
步骤S3:采用目标文本识别算法对目标文本图像进行文本识别,生成文本识别结果。在实际应用中,将检测好的目标文本图像输入到采用目标文本识别算法构成的目标文本识别模块中,得到文本识别结果。
具体地,在一实施例中,上述的步骤S3,如图2所示,具体包括如下步骤:
步骤S31:根据目标文本识别算法对目标文本图像进行识别,生成序列化文本特征。其中,上述的文本识别模块包括卷积神经网络(CNN)和循环神经网络(RNN)两部分,利用这两部分分别对目标文本图像进行识别,最后生成序列化文本特征。
步骤S32:根据预设时间步对序列化文本特征进行预测计算,得到文本预测序列。在实际应用中,对序列化文本特征进行预测计算,最后得到文本预测序列,假设预设时间步为T,识别模块在经过预设的T个时间步的计算后,就会得到一个长度为T的文本预测序列,其中,文本预测序列中的每个预测值代表着该图像描述符含有字符集里的某一字符的概率。
步骤S33:根据连接时间分类器对预测序列进行转录解码,生成文本识别结果。其中,转录是将RNN所做的每帧预测转换成标签序列的过程,在实际应用中,使用连接时间分类器(Connectionist Temporal Classification,CTC)对预测序列进行转录解码,并且对文本预测序列中无关或者空白的字符进行处理,RNN的每一个输出要对应到字符图像中的每一个位置,要手工做这样的标记工作量太大,而且图像中的字符数量不同,字体样式不同,大小不同,导致输出不一定能和每个字符一一对应,因此采用CTC进行转录解码,用来解决输入序列和输出序列难以一一对应的问题。
其中,在预测序列转录解码时,CTC依赖的是概率模型。
用π表示一个标签,π=(π1,π2,...,πt))表示该标签的字符序列,一种序列为一种路径,其概率可以通过如下公式表示:
其中,x是输入序列,y是输出序列在t时刻对πt标签的概率值。即给定一个输入,在时间步t=1到T内每个时间步的观测概率相乘,最后得到对应路径的概率。
在实际情况中,每一个正确的标签可能会有多个路径与之对应。输入序列的最终条件概率可以用路径之和来表示:
目标是通过输入序列x得到输出序列y,通过输出序列的分布p(I|x),选择其中概率最大序列作为输出序列。
对于文本预测序列中无关或者空白的字符,为了增加识别效率,可以采用无词典模式的转录方法,以时间步为单位,通过选择具有最高概率的字符进行预测,解码结束后,采用去重操作去除所有的重复符号与占位符,得到输出结果,在实际应用中,也可以采取其他方法对文本预测序列进行转录解码,只要能达到同样效果即可,本发明并不以此为限。
具体地,在一实施例中,上述的步骤S31,具体包括如下步骤:
步骤S311:将目标文本图像输入卷积神经网络,获得目标文本图像的多个特征向量。在实际应用中,首先使用卷积神经网络(CNN)获得图像的低层次特征,其中,CNN包含了卷积层和最大池化层,利用卷积层、卷积核等超参数,经过卷积核的运算,输出文本图片的形态、颜色、纹理等特征。图像特征以大量卷积核的计算值组成的特征向量构成,这些特征向量进一步拼接,最终以特征图的形式成为CNN的输出。为了将图像进行序列表征,切分特征图,分割后其每一列为一个特征向量,这些特征向量对应于原始图像中的一个矩形区域,需要说明的是,本发明实施例中仅以矩形区域为例进行说明,也可以是其他类型的区域,本发明并不以此为限。
步骤S312:将各特征向量分别输入循环神经网络,生成序列化文本特征,循环神经网络堆叠有多个双向长短期记忆神经网络。将上述步骤S311中CNN输出的各特征向量输入RNN中,得到序列特征并进行逐帧预测生成序列化文本特征。
本发明实施例通过利用RNN捕获序列内上下文信息的能力,学习CNN输出的向量序列,将CNN输出的特征向量以从左至右的顺序依次输入RNN网络,使得图片的上下文信息得以依次计算,RNN将随着时间步的推移来计算整张图片。RNN部分通过堆叠了多个双向长短期记忆神经网络(Long-short term memory network,LSTM),得到深度双向LSTM,从而克服传统RNN的梯度消失问题,更长时间地存储上下文,最终得到所需的序列化文本特征。
步骤S4:采用预设的图像分割算法去除票据文本图像的影印数据。在实际应用中,影印数据的质量优劣影响后续检测、识别模块的表现,为了提高图像质量,削弱无关背景,使得待关注的文本内容在整体上更突出,本发明实施例针对票据文本图像的影印数据,通过将原图从RGB色域转换到LAB色域,在LAB色域中,基于噪音像素的通道位置,将噪音像素从原图中分离出来。例如,印章图像的像素会大量存在于红色显著通道A通道中,得到噪音分离图后,设定阈值生成掩膜,将掩膜中的噪音像素设置为255,其他区域的像素被设置为0,再将掩膜与原图进行或运算操作。
步骤S5:采用霍夫直线检测算法去除票据文本图像的直线,生成待检测文本图像。在实际应用中,票据文本图像中会存在大量的表格,表格由直线构成,会对文本信息的识别产生干扰,在本发明实施例中针对票据文本图像的直线,采用Canny边缘检测算法进行边缘检测后,利用霍夫直线检测算法,实现直线去除,以减小识别的干扰信息,提高最终识别的准确率。例如,对于图片内容成分并不复杂的银行回单数据,采用3x3大小的卷积核对图像进行高斯滤波,计算图像中每个像素的梯度强度和方向。将当前像素的梯度强度与沿正负梯度方向上的两个像素进行比较,应用非极大值抑制法和双阈值检测方法,消除杂散响应,剔除弱边缘点。
具体地,在一实施例中,在执行上述步骤S2之后,步骤S3之前,本发明实施例提供的票据的文本识别方法还包括:
步骤S6:根据待检测文本图像对各候选像素点进行扩张与填充,得到文本区域。在实际应用中,由于文本检测模型的输入是高度固定、长度不定的文本图片,需对文本图片的字符高度进行规整,使其高度与文本检测模型的输入高度一致,并在保持宽高比没有过大变化的条件下,调整文本图片的长度,例如:在实际应用中,假设固定文本检测模型的输入的高度为75mm,各待检测的文本图像的高度有70mm、100mm和130mm等,为了增快识别速度的同时保证识别的准确率,就需对待检测的文本图像的字符高度进行规整,使其高度与文本检测模型的输入高度都为75mm,并且在保持宽高比没有过大变化,即变化后对检测识别结果不产生影响,可以相应的调整文本图片的长度。
步骤S7:利用预设的训练数据集对目标文本检测模型进行训练。在正式进行文本识别之前,需要先对模型进行训练,得到更适应票据文本图像数据类型的模型。
其中,在进行训练之前,首先需要构造训练数据集,来训练CRAFT模型,在对CRAFT模型进行训练的过程中需要像素级的监督,且该CRAFT模型的目标对象是单个字符,也就是需要对训练数据进行字符标注,现有的通用数据集很少具有字符级标注,且人工标注的成本巨大。因此本发明实施例采用生成数据方法来构建所需的数据集,根据票据图像的特征定义和设定规则,按照规则由计算机随机生成数据,可以同时生成模型所需的字符标注。在本方法中,采用在有光照变化的背景上添加文本行,包括中文、英文和数字,并加入一定的噪声来多样化构建训练数据。
然后根据上述构造的训练数据集对训练模型进行参数调优,通过将训练样本图片输入CRAFT模型,输入图片首先经过四个卷积层的运算,得到低层次的文本特征,由于前四个卷积层之后都与池化层相连,池化层能对特征图进行下采样操作,于是最终提取到的特征尺度要比原图更小,为了得到原图大小的预测图,需要进行上采样卷积操作,即首先经过上采样操作,再经过没有池化的卷积层计算,输入上采样卷积层之前,为了提高特征的表达能力,需要进行特征融合操作,即将不同卷积层的特征图融合一起,经过四个上采样卷积层之后,再经过四层连续卷积,最后分别经过一个分支输出得到最终的两个像素预测概率图,图中每个像素的值在0到1之间,数值代表的分别是该像素是字符及链接区域的概率。
在训练阶段,模型的参数更新采用梯度反向传播算法,将预测结果反馈回网络中的各个节点,并调整节点权重,使得目标函数得以最小化。本发明实施例中的目标函数是MSE损失函数,其含义为预测结果与真实标注之间的欧式距离,需要说明的是,目标函数也可以采用其他函数对模型的参数进行更新,本发明并不以此为限。
为完成后续的文本识别训练任务以及系统评价,需要对回单上的文字信息进行标注,借助labelimg等标注软件以及人工校正实现,需要标注的信息有用户账号以及交易信息出现的位置以及信息内容,位置使用四个坐标标定,信息内容需要人工输入或者使用自动标注方法给定,得到的训练图片为从回单上裁剪的文本实例,构成了回单训练集,训练过程中除回单训练集外,还增加了通过字体、大小、灰度、模糊、透视、拉伸等变化随机生成方法得到的生成中文数据集,生成大写金额与数字数据集,生成英文数据集,生成形近字数据集,这五个数据集分别针对了通用中文数据、模糊回单文字数据、不定长数字数据、不定长英文数据以及回单中出现频次高的大写金额数据,从这些数据中平衡采样训练,将能够得到更适合票据数据类型的模型,以提高识别的精准度,减少误、检漏检事件的发生。
本发明实施例中,如图3所示,对票据文本图像进行检测与识别过程中,各网络模型的输入为文字特征向量,输出是类编码,特征向量通常为字符图像像素点的矩阵,这样特征提取相当于是一个黑盒的操作,针对复杂图像的识别模型调优和适配具有一定的难度,并且目前成熟的识别模型基于大量英文语料构建,对复杂中文字体和段落的识别效果有待提升,并且识别依赖于有效的文本区域的检测,通过训练优化模型、更新参数,有效提高整体检测识别效率与精准度。
通过上述步骤S1至步骤S7,本发明实施例提供了一种票据的文本识别方法,通过深度学习神经网络模型对票据文本图像进行检测与识别,本识别方法简单省去了复杂且重复的预处理和后处理,无需手工提取特征,降低了对噪声和单像素扰动的敏感性,提高待检测图像的质量,削弱无关背景,使得待检测的文本内容在整体上更突出,为文本检测去除很大的像素扰动,得到有效的文本检测区域,最终提高整体检测识别效率与精准度,实现图像文本数据的结构化提取和存储,有效提升票据归档分类的电子化和智能化水平。
本本发明实施例还提供了一种票据的文本识别系统,如图4所示,包括:
获取模块1,用于获取票据文本图像。详细内容参见上述方法实施例中步骤S1的相关描述。
目标文本图像生成模块2,采用目标文本检测模型对票据文本图像进行文本区域检测,生成目标文本图像。详细内容参见上述方法实施例中步骤S2的相关描述。
识别模块3,采用目标文本识别算法对目标文本图像进行文本识别,生成文本识别结果。详细内容参见上述方法实施例中步骤S3的相关描述。
通过上述各个组成部分的协同合作,本发明实施例提供了一种票据的文本识别系统,通过深度学习神经网络模型对票据文本图像进行检测与识别,本识别方法简单,省去了复杂且重复的预处理和后处理,无需手工提取特征,降低了对噪声和单像素扰动的敏感性,提高待检测图像的质量,削弱无关背景,使得待检测的文本内容在整体上更突出,为文本检测去除很大的像素扰动,得到有效的文本检测区域,最终提高整体检测识别效率与精准度,实现图像文本数据的结构化提取和存储,有效提升票据的电子化和智能化水平。
本发明实施例还提供了一种电子设备,如图5所示,该电子设备可以包括处理器901和存储器902,其中处理器901和存储器902可以通过总线或者其他方式连接,图5中以通过总线连接为例。
处理器901可以为中央处理器(Central Processing Unit,CPU)。处理器901还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器902作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法。
存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器901所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器902中,当被处理器901执行时,执行上述方法。
上述电子设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-StateDrive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种票据的文本识别方法,其特征在于,包括:
获取票据文本图像;
采用目标文本检测模型对所述票据文本图像进行文本区域检测,生成目标文本图像;
采用目标文本识别算法对所述目标文本图像进行文本识别,生成文本识别结果。
2.根据权利要求1所述的票据的文本识别方法,其特征在于,所述目标文本检测模型为CRAFT模型,所述采用目标文本检测模型对所述票据文本图像进行文本区域检测,生成目标文本图像,包括:
将所述票据文本图像输入所述CRAFT模型,生成两个像素预测概率图;
根据预设像素阈值对两个所述像素预测概率图中各像素点进行筛选,生成各候选像素点;
根据各所述候选像素点,确定所述票据文本图像对应的文本区域的位置信息;
根据所述文本区域的位置信息,生成所述目标文本图像。
3.根据权利要求1所述的票据的文本识别方法,其特征在于,所述采用目标文本识别算法对所述目标文本图像进行文本识别,生成文本识别结果,包括:
根据所述目标文本识别算法对所述目标文本图像进行识别,生成序列化文本特征;
根据预设时间步对所述序列化文本特征进行预测计算,得到文本预测序列;
根据连接时间分类器对所述文本预测序列进行转录解码,生成所述文本识别结果。
4.根据权利要求3所述的票据的文本识别方法,其特征在于,所述根据所述目标文本识别算法对所述目标文本图像进行识别,生成序列化文本特征,包括:
将所述目标文本图像输入卷积神经网络,获得所述目标文本图像的多个特征向量;
将各所述特征向量分别输入循环神经网络,生成所述序列化文本特征,所述循环神经网络堆叠有多个双向长短期记忆神经网络。
5.根据权利要求2所述的票据的文本识别方法,其特征在于,还包括:
采用预设的图像分割算法去除所述票据文本图像的影印数据;
采用霍夫直线检测算法去除所述票据文本图像的直线,生成待检测文本图像。
6.根据权利要求5所述的票据的文本识别方法,其特征在于,在所述采用目标文本检测模型对所述票据文本图像进行文本区域检测,生成目标文本图像之后,在所述采用目标文本识别算法对所述目标文本图像进行文本识别之前,所述方法还包括:
根据所述待检测文本图像对各所述候选像素点进行扩张与填充,得到所述文本区域。
7.根据权利要求1所述的票据的文本识别方法,其特征在于,还包括:
利用预设的训练数据集对所述目标文本检测模型进行训练。
8.一种票据的文本识别系统,其特征在于,包括:
获取模块,用于获取票据文本图像;
目标文本图像生成模块,采用目标文本检测模型对所述票据文本图像进行文本区域检测,生成目标文本图像;
识别模块,采用目标文本识别算法对所述目标文本图像进行文本识别,生成文本识别结果。
9.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令被处理器执行时实现如权利要求1-7中任一项所述的票据的文本识别方法。
10.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1-7中任一项所述的票据的文本识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910864930.4A CN110647829A (zh) | 2019-09-12 | 2019-09-12 | 一种票据的文本识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910864930.4A CN110647829A (zh) | 2019-09-12 | 2019-09-12 | 一种票据的文本识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110647829A true CN110647829A (zh) | 2020-01-03 |
Family
ID=69010546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910864930.4A Pending CN110647829A (zh) | 2019-09-12 | 2019-09-12 | 一种票据的文本识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110647829A (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241974A (zh) * | 2020-01-07 | 2020-06-05 | 深圳追一科技有限公司 | 票据信息获取方法、装置、计算机设备和存储介质 |
CN111291742A (zh) * | 2020-02-10 | 2020-06-16 | 北京百度网讯科技有限公司 | 对象识别方法和装置、电子设备、存储介质 |
CN111339910A (zh) * | 2020-02-24 | 2020-06-26 | 支付宝实验室(新加坡)有限公司 | 文本的处理、文本分类模型的训练方法及装置 |
CN111383193A (zh) * | 2020-02-21 | 2020-07-07 | 泰康保险集团股份有限公司 | 图像修复方法和装置 |
CN111414905A (zh) * | 2020-02-25 | 2020-07-14 | 泰康保险集团股份有限公司 | 一种文本检测方法、文本检测装置、电子设备及存储介质 |
CN111444912A (zh) * | 2020-01-14 | 2020-07-24 | 国网电子商务有限公司 | 一种票据图像文字识别方法及装置 |
CN111461100A (zh) * | 2020-03-31 | 2020-07-28 | 重庆农村商业银行股份有限公司 | 一种票据识别方法、装置、电子设备和存储介质 |
CN111488852A (zh) * | 2020-04-21 | 2020-08-04 | 成都信息工程大学 | 一种基于图像识别的缴费智能核查预警系统及预警方法 |
CN111507356A (zh) * | 2020-04-20 | 2020-08-07 | 恒银金融科技股份有限公司 | 一种金融票据小写金额手写字符的分割方法 |
CN111539438A (zh) * | 2020-04-28 | 2020-08-14 | 北京百度网讯科技有限公司 | 文本内容的识别方法、装置及电子设备 |
CN111695439A (zh) * | 2020-05-20 | 2020-09-22 | 平安科技(深圳)有限公司 | 图像结构化数据提取方法、电子装置及存储介质 |
CN111814785A (zh) * | 2020-06-11 | 2020-10-23 | 浙江大华技术股份有限公司 | 发票识别方法及相关模型的训练方法以及相关设备、装置 |
CN111832497A (zh) * | 2020-07-17 | 2020-10-27 | 西南大学 | 一种基于几何特征的文本检测后处理方法 |
CN111832491A (zh) * | 2020-07-16 | 2020-10-27 | Oppo广东移动通信有限公司 | 文本检测方法、装置及处理设备 |
CN112149654A (zh) * | 2020-09-23 | 2020-12-29 | 四川长虹电器股份有限公司 | 基于深度学习的发票文本信息识别方法 |
CN112364837A (zh) * | 2020-12-09 | 2021-02-12 | 四川长虹电器股份有限公司 | 一种基于目标检测和文本识别的票据信息识别方法 |
CN112380899A (zh) * | 2020-09-30 | 2021-02-19 | 深圳点猫科技有限公司 | 一种广告图像内的文本识别方法、装置及设备 |
CN112396459A (zh) * | 2020-11-19 | 2021-02-23 | 上海源慧信息科技股份有限公司 | 一种用于购物凭证核销的云审核方法 |
CN112464931A (zh) * | 2020-11-06 | 2021-03-09 | 马上消费金融股份有限公司 | 文本检测方法、模型训练方法及相关设备 |
CN112580656A (zh) * | 2021-02-23 | 2021-03-30 | 上海旻浦科技有限公司 | 一种端到端的文本检测方法、系统、终端及存储介质 |
CN112651340A (zh) * | 2020-12-28 | 2021-04-13 | 上海商米科技集团股份有限公司 | 一种购物小票的文字识别方法、系统、终端设备和存储介质 |
CN112818949A (zh) * | 2021-03-09 | 2021-05-18 | 浙江天派科技有限公司 | 一种产证文字的识别方法及系统 |
CN112966583A (zh) * | 2021-02-26 | 2021-06-15 | 深圳壹账通智能科技有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN113065406A (zh) * | 2021-03-08 | 2021-07-02 | 国网河北省电力有限公司 | 一种基于编解码结构识别发票文本的报账智能平台 |
CN113139625A (zh) * | 2021-05-18 | 2021-07-20 | 北京世纪好未来教育科技有限公司 | 一种模型训练方法、电子设备及其存储介质 |
CN113657377A (zh) * | 2021-07-22 | 2021-11-16 | 西南财经大学 | 一种机打票据图像结构化识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654072A (zh) * | 2016-03-24 | 2016-06-08 | 哈尔滨工业大学 | 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 |
CN108446621A (zh) * | 2018-03-14 | 2018-08-24 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN109117848A (zh) * | 2018-09-07 | 2019-01-01 | 泰康保险集团股份有限公司 | 一种文本行字符识别方法、装置、介质和电子设备 |
-
2019
- 2019-09-12 CN CN201910864930.4A patent/CN110647829A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654072A (zh) * | 2016-03-24 | 2016-06-08 | 哈尔滨工业大学 | 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 |
CN108446621A (zh) * | 2018-03-14 | 2018-08-24 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN109117848A (zh) * | 2018-09-07 | 2019-01-01 | 泰康保险集团股份有限公司 | 一种文本行字符识别方法、装置、介质和电子设备 |
Non-Patent Citations (1)
Title |
---|
YOUNGMIN BAEK ET AL: "Character Region Awareness for Text Detection", 《HTTPS://ARXIV.ORG/ABS/1904.01941V1》 * |
Cited By (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241974B (zh) * | 2020-01-07 | 2023-10-27 | 深圳追一科技有限公司 | 票据信息获取方法、装置、计算机设备和存储介质 |
CN111241974A (zh) * | 2020-01-07 | 2020-06-05 | 深圳追一科技有限公司 | 票据信息获取方法、装置、计算机设备和存储介质 |
CN111444912A (zh) * | 2020-01-14 | 2020-07-24 | 国网电子商务有限公司 | 一种票据图像文字识别方法及装置 |
CN111291742A (zh) * | 2020-02-10 | 2020-06-16 | 北京百度网讯科技有限公司 | 对象识别方法和装置、电子设备、存储介质 |
WO2021159843A1 (zh) * | 2020-02-10 | 2021-08-19 | 北京百度网讯科技有限公司 | 对象识别方法和装置、电子设备、存储介质 |
CN111383193A (zh) * | 2020-02-21 | 2020-07-07 | 泰康保险集团股份有限公司 | 图像修复方法和装置 |
CN111339910B (zh) * | 2020-02-24 | 2023-11-28 | 支付宝实验室(新加坡)有限公司 | 文本的处理、文本分类模型的训练方法及装置 |
CN111339910A (zh) * | 2020-02-24 | 2020-06-26 | 支付宝实验室(新加坡)有限公司 | 文本的处理、文本分类模型的训练方法及装置 |
CN111414905A (zh) * | 2020-02-25 | 2020-07-14 | 泰康保险集团股份有限公司 | 一种文本检测方法、文本检测装置、电子设备及存储介质 |
CN111414905B (zh) * | 2020-02-25 | 2023-08-18 | 泰康保险集团股份有限公司 | 一种文本检测方法、文本检测装置、电子设备及存储介质 |
CN111461100A (zh) * | 2020-03-31 | 2020-07-28 | 重庆农村商业银行股份有限公司 | 一种票据识别方法、装置、电子设备和存储介质 |
CN111507356A (zh) * | 2020-04-20 | 2020-08-07 | 恒银金融科技股份有限公司 | 一种金融票据小写金额手写字符的分割方法 |
CN111488852A (zh) * | 2020-04-21 | 2020-08-04 | 成都信息工程大学 | 一种基于图像识别的缴费智能核查预警系统及预警方法 |
CN111539438A (zh) * | 2020-04-28 | 2020-08-14 | 北京百度网讯科技有限公司 | 文本内容的识别方法、装置及电子设备 |
CN111539438B (zh) * | 2020-04-28 | 2024-01-12 | 北京百度网讯科技有限公司 | 文本内容的识别方法、装置及电子设备 |
US11810384B2 (en) | 2020-04-28 | 2023-11-07 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and apparatus for recognizing text content and electronic device |
WO2021151270A1 (zh) * | 2020-05-20 | 2021-08-05 | 平安科技(深圳)有限公司 | 图像结构化数据提取方法、装置、设备及存储介质 |
CN111695439A (zh) * | 2020-05-20 | 2020-09-22 | 平安科技(深圳)有限公司 | 图像结构化数据提取方法、电子装置及存储介质 |
CN111814785A (zh) * | 2020-06-11 | 2020-10-23 | 浙江大华技术股份有限公司 | 发票识别方法及相关模型的训练方法以及相关设备、装置 |
CN111814785B (zh) * | 2020-06-11 | 2024-03-29 | 浙江大华技术股份有限公司 | 发票识别方法及相关模型的训练方法以及相关设备、装置 |
CN111832491A (zh) * | 2020-07-16 | 2020-10-27 | Oppo广东移动通信有限公司 | 文本检测方法、装置及处理设备 |
CN111832497A (zh) * | 2020-07-17 | 2020-10-27 | 西南大学 | 一种基于几何特征的文本检测后处理方法 |
CN111832497B (zh) * | 2020-07-17 | 2022-06-28 | 西南大学 | 一种基于几何特征的文本检测后处理方法 |
CN112149654A (zh) * | 2020-09-23 | 2020-12-29 | 四川长虹电器股份有限公司 | 基于深度学习的发票文本信息识别方法 |
CN112380899A (zh) * | 2020-09-30 | 2021-02-19 | 深圳点猫科技有限公司 | 一种广告图像内的文本识别方法、装置及设备 |
CN112464931B (zh) * | 2020-11-06 | 2021-07-30 | 马上消费金融股份有限公司 | 文本检测方法、模型训练方法及相关设备 |
CN112464931A (zh) * | 2020-11-06 | 2021-03-09 | 马上消费金融股份有限公司 | 文本检测方法、模型训练方法及相关设备 |
CN112396459A (zh) * | 2020-11-19 | 2021-02-23 | 上海源慧信息科技股份有限公司 | 一种用于购物凭证核销的云审核方法 |
CN112364837A (zh) * | 2020-12-09 | 2021-02-12 | 四川长虹电器股份有限公司 | 一种基于目标检测和文本识别的票据信息识别方法 |
CN112651340A (zh) * | 2020-12-28 | 2021-04-13 | 上海商米科技集团股份有限公司 | 一种购物小票的文字识别方法、系统、终端设备和存储介质 |
CN112580656A (zh) * | 2021-02-23 | 2021-03-30 | 上海旻浦科技有限公司 | 一种端到端的文本检测方法、系统、终端及存储介质 |
CN112966583A (zh) * | 2021-02-26 | 2021-06-15 | 深圳壹账通智能科技有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN113065406B (zh) * | 2021-03-08 | 2022-11-11 | 国网河北省电力有限公司 | 一种基于编解码结构识别发票文本的报账智能平台 |
CN113065406A (zh) * | 2021-03-08 | 2021-07-02 | 国网河北省电力有限公司 | 一种基于编解码结构识别发票文本的报账智能平台 |
CN112818949A (zh) * | 2021-03-09 | 2021-05-18 | 浙江天派科技有限公司 | 一种产证文字的识别方法及系统 |
CN113139625A (zh) * | 2021-05-18 | 2021-07-20 | 北京世纪好未来教育科技有限公司 | 一种模型训练方法、电子设备及其存储介质 |
CN113139625B (zh) * | 2021-05-18 | 2023-12-15 | 北京世纪好未来教育科技有限公司 | 一种模型训练方法、电子设备及其存储介质 |
CN113657377B (zh) * | 2021-07-22 | 2023-11-14 | 西南财经大学 | 一种机打票据图像结构化识别方法 |
CN113657377A (zh) * | 2021-07-22 | 2021-11-16 | 西南财经大学 | 一种机打票据图像结构化识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110647829A (zh) | 一种票据的文本识别方法及系统 | |
US20190180154A1 (en) | Text recognition using artificial intelligence | |
CN106446896B (zh) | 一种字符分割方法、装置及电子设备 | |
CN112966691B (zh) | 基于语义分割的多尺度文本检测方法、装置及电子设备 | |
CN110490081B (zh) | 一种基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象解译方法 | |
CN111488826A (zh) | 一种文本识别方法、装置、电子设备和存储介质 | |
RU2707147C1 (ru) | Обучение нейронной сети посредством специализированных функций потерь | |
CN109389115B (zh) | 文本识别方法、装置、存储介质和计算机设备 | |
CN108961358B (zh) | 一种获得样本图片的方法、装置及电子设备 | |
CN112464845B (zh) | 票据识别方法、设备及计算机存储介质 | |
CN112215236B (zh) | 文本识别方法、装置、电子设备及存储介质 | |
CN112597918A (zh) | 文本检测方法及装置、电子设备、存储介质 | |
CN111401099A (zh) | 文本识别方法、装置以及存储介质 | |
CN112052845A (zh) | 图像识别方法、装置、设备及存储介质 | |
CN116311310A (zh) | 一种结合语义分割和序列预测的通用表格识别方法和装置 | |
CN112580507A (zh) | 一种基于图像矩矫正的深度学习文本字符检测方法 | |
CN111507337A (zh) | 基于混合神经网络的车牌识别方法 | |
Wicht et al. | Camera-based sudoku recognition with deep belief network | |
CN114330234A (zh) | 版面结构分析方法、装置、电子设备和存储介质 | |
US11568140B2 (en) | Optical character recognition using a combination of neural network models | |
CN112580624A (zh) | 基于边界预测的多方向文本区域检测方法和装置 | |
KR102026280B1 (ko) | 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템 | |
CN114429636B (zh) | 图像扫描识别方法、装置及电子设备 | |
CN111242114A (zh) | 文字识别方法及装置 | |
CN115116074A (zh) | 一种手写体文字识别、及模型训练方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200103 |