CN116129573A - 一种发票识别方法及装置 - Google Patents
一种发票识别方法及装置 Download PDFInfo
- Publication number
- CN116129573A CN116129573A CN202310111282.1A CN202310111282A CN116129573A CN 116129573 A CN116129573 A CN 116129573A CN 202310111282 A CN202310111282 A CN 202310111282A CN 116129573 A CN116129573 A CN 116129573A
- Authority
- CN
- China
- Prior art keywords
- invoice
- picture
- invoice picture
- characters
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07D—HANDLING OF COINS OR VALUABLE PAPERS, e.g. TESTING, SORTING BY DENOMINATIONS, COUNTING, DISPENSING, CHANGING OR DEPOSITING
- G07D7/00—Testing specially adapted to determine the identity or genuineness of valuable papers or for segregating those which are unacceptable, e.g. banknotes that are alien to a currency
- G07D7/20—Testing patterns thereon
- G07D7/2008—Testing patterns thereon using pre-processing, e.g. de-blurring, averaging, normalisation or rotation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/162—Quantising the image signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/164—Noise filtering
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07D—HANDLING OF COINS OR VALUABLE PAPERS, e.g. TESTING, SORTING BY DENOMINATIONS, COUNTING, DISPENSING, CHANGING OR DEPOSITING
- G07D7/00—Testing specially adapted to determine the identity or genuineness of valuable papers or for segregating those which are unacceptable, e.g. banknotes that are alien to a currency
- G07D7/20—Testing patterns thereon
- G07D7/2016—Testing patterns thereon using feature extraction, e.g. segmentation, edge detection or Hough-transformation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Character Input (AREA)
Abstract
本发明提供一种发票识别方法及装置,其中,发票识别方法包括:对发票图片进行预处理,获得第一发票图片;其中,所述预处理包括降噪和确定目标文字区域;对所述第一发票图片中的文字进行切割,获得第二发票图片;标记所述第二发票图片中的文字的形态特征;以及根据所述形态特征和图像特征,识别所述第二发票图片中的文字。本发明可以提升发票识别结果的准确性。
Description
技术领域
本发明涉及文字识别技术领域,特别涉及一种发票识别方法及装置。
背景技术
在电子发票未全面铺开的环境下,纸质发票拍照成图片进行报销仍是共享网报的主要数据来源,在发票文字识别数据的过程中,因为拍照角度、形似字、模糊等情况经常错误的将购买方名称等汉字识别错误,或者因为增值税发票的购买方名称等内容不具有日常用语的逻辑性与连贯性,比较难以通过日常用语的学习来提高模型的识别率,较容易出现形状类似的字体错误,最终导致发票难以报销。
发明内容
为了解决上述技术问题,提出了本发明。本发明的实施例提供了一种发票识别方法及装置,可以提升发票识别结果的准确性。
根据本发明的一个方面,提供了一种发票识别方法,包括:对发票图片进行预处理,获得第一发票图片;其中,所述预处理包括降噪和确定目标文字区域;对所述第一发票图片中的文字进行切割,获得第二发票图片;标记所述第二发票图片中的文字的形态特征;以及根据所述形态特征和图像特征,识别所述第二发票图片中的文字。
在一实施例中,所述标记所述第二发票图片中的文字的形态特征包括:通过霍夫变换直线检测算法,利用点和线的对偶性,对所述第二发票图片的图像空间的坐标系进行变换;将欧式空间中的直线检测变换为霍夫空间下的峰值检测,记录所述第二发票图片中的每个所述文字的形态特征;其中,所述形态特征包括所述文字的直线特征、曲线特征和离断特征。
在一实施例中,在所述根据所述形态特征和图像特征,识别所述第二发票图片中的文字之前,所述发票识别方法还包括:获取业务数据字典,其中,所述业务数据字典包括预设的基础数据信息;所述基础数据信息表示与发票相关的名称和业务术语;其中,所述根据所述形态特征和图像特征,识别所述第二发票图片中的文字包括:根据所述形态特征、图像特征和所述业务数据字典,识别所述第二发票图片中的文字。
在一实施例中,所述对发票图片进行预处理,获得第一发票图片包括:以预设阈值对所述发票图片进行二值化处理,获得降噪后的所述发票图片;采用索伯算子作为所述发票图片的边缘检测算子,对所述发票图片进行文字区域检测,获得确定目标文字区域的所述第一发票图片。
在一实施例中,所述采用索伯算子作为所述发票图片的边缘检测算子,对所述发票图片进行文字区域检测包括:通过卷积获取所述第一发票图片的横纵向的亮度差分Gx和Gy;根据所述亮度差分Gx和Gy,计算得到图像的像素灰度点G;其中,所述根据所述亮度差分Gx和Gy,计算得到图像的像素灰度点包括:G=(Gx^2+Gy^2)^-2;G表示所述像素灰度点,Gx和Gy表示所述亮度差分。
在一实施例中,所述对所述第一发票图片中的文字进行切割,获得第二发票图片包括:通过投影法对所述第一发票图片中的文字进行切割,获得所述第二发票图片。
在一实施例中,在所述根据所述形态特征和图像特征,识别所述第二发票图片中的文字之前,所述发票识别方法还包括:通过卷积神经网络提取所述第二发票图片中的所述形态特征和所述图像特征;其中,所述图像特征包括几何特征、形状特征、直方图特征、颜色特征和局部二值特征;其中,所述根据所述形态特征和图像特征,识别所述第二发票图片中的文字包括:根据所述形态特征、所述几何特征、所述形状特征、所述直方图特征、所述颜色特征和所述局部二值特征,识别所述第二发票图片中的文字。
在一实施例中,所述卷积神经网络包括多个卷积层、多个池化层、全连接层,所述卷积层和所述池化层交替连接,所述全连接层位于所述卷积神经网络的输出端,所述通过卷积神经网络提取所述第二发票图片中的所述形态特征和所述图像特征包括:所述卷积层提取所述第二发票图片中的所述形态特征和所述图像特征;所述池化层对所述形态特征和所述图像特征进行抽样;经过多个所述卷积层的提取和多个所述池化层的抽样后,所述全连接层把提取到的所有特征连接起来;其中,所述根据所述形态特征和图像特征,识别所述第二发票图片中的文字包括:通过分类器获得所有特征的分类结果,根据所述分类结果获得所述第二发票图片中的文字。
在一实施例中,所述发票识别方法还包括:当存在所述第二发票图片中的文字识别结果与实际文字不一致时,记录不一致的所述第二发票图片以及对应的文字识别结果;记录识别不一致次数大于或等于预设次数的发票图片及文字识别结果。
根据本发明的另一个方面,提供了一种发票识别装置,包括:处理模块,所述处理模块用于对发票图片进行预处理,获得第一发票图片;其中,所述预处理包括降噪和确定目标文字区域;切割模块,所述切割模块用于对所述第一发票图片中的文字进行切割,获得第二发票图片;标记模块,所述标记模块用于标记所述第二发票图片中的文字的形态特征;以及识别模块,所述识别模块用于根据所述形态特征和图像特征,识别所述第二发票图片中的文字。
本发明实施例提供了一种发票识别方法及装置,在文字识别过程中,通过对图片预处理,以及增加具有字体形态特征的标记,可以更准确的区分形状类似的字体,提升最终识别结果的准确性。
附图说明
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本发明一示例性实施例提供的发票识别方法的流程示意图。
图2是本发明一示例性实施例提供的发票识别方法的原理示意图。
图3是本发明一示例性实施例提供的发票识别装置的结构示意图。
具体实施方式
下面,将参考附图详细地描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。
申请概述
在电子发票未全面铺开的环境下,纸质发票拍照成图片进行报销仍是共享网报的主要数据来源,在发票文字识别数据的过程中,因为拍照角度、形似字、模糊等情况经常错误的将购买方名称等汉字识别错误,造成发票无法报销,但业务人员肉眼又无法发现哪里有问题,造成了日常报销困难。
当前的Orc(optical character recognition,文字识别)识别过程,主要是先通过基于滑动窗口的目标检测法(YOLO)或语义分割法(CRNN)确定目标文字区域,然后进行图片、文字矫正,最后使用CRNN等模型进行图片文字识别。
当前的CRNN模型主要是通过多层卷积网络和LSTM网络组成的模型,通过多层卷积网络获取文字特征,在通过LSTM进行组合进行预测和学习,但是因为增值税发票的购买方名称等内容不具有日常用语的逻辑性与连贯性,比较难以通过日常用语的学习来提高模型的识别率,较容易出现形状类似的字体错误,如【市】和【巿】,且大多数精确的汉字识别需要经过大量的数据提交和学习,对于敏感信息较多的发票来说具有较大的安全隐患。
因此,本发明提供一种发票识别方法及装置,在文字识别过程中,通过对图片预处理,以及增加具有字体形态特征的标记,可以更准确的区分形状类似的字体,提升最终识别结果的准确性。
示例性方法
图1是本发明一示例性实施例提供的发票识别方法的流程示意图,如图1所示,该发票识别方法包括:
步骤100:对发票图片进行预处理,获得第一发票图片。
其中,预处理包括降噪和确定目标文字区域。
首先对于发票图片以合理的阈值进行二值化处理,通过二值化可以将发票图片进行有效的降噪,并且二值化有助于对发票的有效文字区域进行检测,可使用Sobeloperator(索伯算子)作为边缘检测算子,Sobel operator(索伯算子)在阴影渐变和打印模糊的纸质发票图片中的降噪效果较好,从而可以有效的对发票图片进行预处理,便于后续的文字识别。第一发票图片为经过降噪和区域确定后的发票图片。
步骤200:对第一发票图片中的文字进行切割,获得第二发票图片。
可通过投影法等方式将图片中的字体进行切割,投影法的精度和抗干扰性更强。对文字进行切割以便于针对每一个文字的图像特征进行拆解识别,尤其是对于数字和字母之间的切割,对于发票的精确识别起着关键作用。第二发票图片为对文字进行切割后的发票图片。
步骤300:标记第二发票图片中的文字的形态特征。
将切割后的问题通过HoughLinesP算法(霍夫变换直线检测算法)来判断标记字体的直线和曲线特征。霍夫变换是一种图像中提取几何形状的技术,利用点和线的对偶性,对图像空间的坐标系进行变换,把欧式空间中的直线检测问题变换为霍夫空间下的峰值检测问题。也就是将检测整体特性变换为检测局部特性。使用HoughLinesP算法(霍夫变换直线检测算法)是可以优化数据样本,经过HoughLinesP算法(霍夫变换直线检测算法)优化后的数据样本,可以用来检测线段的特征,尤其是形状较为相似的字体,其中的区别可能仅仅是一个竖线或斜线,而通过线段特征正好可以进行判断。
步骤400:根据形态特征和图像特征,识别第二发票图片中的文字。
完成图片处理后,基于形态特征和其他的图像特征,可以识别和推断文字内容,从而获得发票文字识别的结果,例如通过卷积神经网络对预处理过的图像进行识别。
本发明提供一种发票识别方法,在文字识别过程中,通过对图片预处理,以及增加具有字体形态特征的标记,可以更准确的区分形状类似的字体,提升最终识别结果的准确性。
在一实施例中,上述步骤300可以包括:通过霍夫变换直线检测算法,利用点和线的对偶性,对第二发票图片的图像空间的坐标系进行变换;将欧式空间中的直线检测变换为霍夫空间下的峰值检测,记录第二发票图片中的每个文字的形态特征;其中,形态特征包括文字的直线特征、曲线特征和离断特征。
可以通过霍夫变换直线检测算法来判断标记字体的直线和曲线特征。霍夫变换是一种图像中提取几何形状的技术,利用点和线的对偶性,对图像空间的坐标系进行变换,把欧式空间中的直线检测问题变换为霍夫空间下的峰值检测问题。也就是将检测整体特性变换为检测局部特性。使用霍夫变换直线检测算法可以优化数据样本,经过霍夫变换直线检测算法优化后的数据样本,可以用来检测线段的特征,例如文字的直线特征、曲线特征和离断特征。文字由多条线段组成,通过记录线段的特征,可以方便快捷的识别和判断形状较为相似的字体。
在一实施例中,在上述步骤400之前,发票识别方法还可以包括:获取业务数据字典,其中,业务数据字典包括预设的基础数据信息;基础数据信息表示与发票相关的名称和业务术语;其中,上述步骤400可以包括:根据形态特征、图像特征和业务数据字典,识别第二发票图片中的文字。
在最终识别第二发票图片中的文字,可通过模型进行识别。而在对文本序列进行识别时,可以将文字的形态特征代入最终识别的模型学习中,同时将用户的基础数据信息(例如本地字典中存在的往来单位、税务组织、行政组织、核算组织等;发票常用业务术语等)也加入学习库中,从而增强模型的鲁棒性。使模型不再单纯的通过日常语义进行推断,而是根据字体位置、字体形态、业务数据(例如历史往来频率较高的单位名称等)进行推断,从而减少形体类似的字体识别错误,提升发票中文字的识别准确率。
在一实施例中,上述步骤100可以包括:以预设阈值对发票图片进行二值化处理,获得降噪后的发票图片;采用索伯算子作为发票图片的边缘检测算子,对发票图片进行文字区域检测,获得确定目标文字区域的第一发票图片。
在实际识别发票图片时,发票图片可能是倾斜的,或者带有较多噪点的,因此,在开始对发票进行识别时,首先以合理的阈值进行二值化处理,通过二值化可以将发票图片进行有效的降噪并有助于对发票有效区域进行检测。在对文字区域检测时,可以采用索伯算子作为发票图片的边缘检测算子,获得确定目标文字区域的第一发票图片,索伯算子是一个小且是整数的滤波器对整张影像在水平及垂直方向上做卷积,它所需的运算资源相对较少,且索伯算子在阴影渐变和打印模糊的纸质发票图片中的降噪效果较好,从而可以有效的对发票图片进行预处理,便于后续的文字识别。除文字区域检测外,发票中其他有效区域也可以进行区域检测和区域确定。
在一实施例中,采用索伯算子作为发票图片的边缘检测算子,对发票图片进行文字区域检测包括:通过卷积获取第一发票图片的横纵向的亮度差分Gx和Gy;根据亮度差分Gx和Gy,计算得到图像的像素灰度点G;其中,根据亮度差分Gx和Gy,计算得到图像的像素灰度点包括:G=(Gx^2+Gy^2)^-2;G表示像素灰度点,Gx和Gy表示亮度差分。
索伯算子通过卷积获取第一发票图片的横纵向的亮度差分Gx和Gy,并计算得到图像的像素灰度点包括:G=(Gx^2+Gy^2)^-2,像素灰度点的计算便于后续对图片继续进行处理。并且对于发票图片的降噪和清晰化起到一定作用。
在一实施例中,上述步骤200可以包括:通过投影法对第一发票图片中的文字进行切割,获得第二发票图片。
文字识别的关键之所在就是单个文字的切割,切割的准确度极大的影响了文字识别的正确率。而投影法的精度和抗干扰性较强,因此,可采用投影法对第一发票图片中的文字进行切割,获得切割好的第二发票图片。
在一实施例中,在上述步骤400之前,发票识别方法还可以包括:通过卷积神经网络提取第二发票图片中的形态特征和图像特征;其中,图像特征包括几何特征、形状特征、直方图特征、颜色特征和局部二值特征;其中,上述步骤400可以包括:根据形态特征、几何特征、形状特征、直方图特征、颜色特征和局部二值特征,识别第二发票图片中的文字。
卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,卷积神经网络对于大型图像处理有出色表现。因此,通过卷积神经网络对预处理过的图像进行识别。基于卷积神经网络的特性,其在携带有形态特征的模型能优化卷积层的特征提取。卷积神经网络配合霍夫变换直线检测算法标记的字体形态特征,能够提高最终的文字识别准确率。
在一实施例中,卷积神经网络包括多个卷积层、多个池化层、全连接层,卷积层和池化层交替连接,全连接层位于卷积神经网络的输出端,通过卷积神经网络提取第二发票图片中的形态特征和图像特征包括:卷积层提取第二发票图片中的形态特征和图像特征;池化层对形态特征和图像特征进行抽样;经过多个卷积层的提取和多个池化层的抽样后,全连接层把提取到的所有特征连接起来;其中,上述步骤400可以包括:通过分类器获得所有特征的分类结果,根据分类结果获得第二发票图片中的文字。
卷积神经网络的基本结构由输入层、卷积层(convolutional layer)、池化层(pooling layer,也称为取样层)、全连接层及输出层构成。卷积层和池化层一般会取若干个,采用卷积层和池化层交替设置,即一个卷积层连接一个池化层,池化层后再连接一个卷积层,依此类推。由于卷积层中输出特征图的每个神经元与其输入进行局部连接,并通过对应的连接权值与局部输入进行加权求和再加上偏置值,得到该神经元输入值,该过程等同于卷积过程。卷积层的主要作用在于提取图像的特征,通过卷积核和输入图像的卷积,提取输入图像的局部特征。随着卷积层数的增加,提取的特征也就越高级,多深度的特征组合效果也就越好。在全连接层把提取到的所有特征连接起来之后,由分类器进行分类并获得所有特征的分类结果,最终输出第二发票图片中识别到的文字。该发明中卷积神经网络搭配霍夫变换直线检测算法标记的字体形态特征,以及增加基础数据信息辅助识别,可以有效减少形体类似的字体识别错误,提升发票中汉字的识别准确率。
在一实施例中,发票识别方法还可以包括:当存在第二发票图片中的文字识别结果与实际文字不一致时,记录不一致的第二发票图片以及对应的文字识别结果;记录识别不一致次数大于或等于预设次数的发票图片及文字识别结果。
在模型训练过程中,或者在实际运用过程中,当存在第二发票图片中的文字识别结果与实际文字不一致的情况时,将对应的第二发票图片以及对应的文字识别结果均进行记录。其中,不一致的情况可以由人为判断并向发票识别系统输入结果,也可以由系统通过多次比对自行发现不一致的情况,从而进行记录,例如同一张发票图片从不同角度进行拍摄,获取到多种文字识别结果,其中存在一张与其他图片不一致的文字识别结果,则系统可以认为这一张发票图片的文字识别结果与实际文字不一致,将对应的发票图片以及对应的文字识别结果进行记录,若记录中多次在该角度拍摄的图片都存在识别不一致的情况,则对该角度进行纠偏和修正。
或者,对于某一个文字多次识别错误,则对该文字以及对于的发票图片进行记录,针对该文字进行多次学习和修正。
图2是本发明一示例性实施例提供的发票识别方法的原理示意图,如图2所示,一种发票识别方法的实现原理可以包括:首先进行图片二值化(步骤10),然后进行字体切割(步骤11),随后采用霍夫变换直线检测进行形态检测(步骤12),记录字体形态,接着获取业务数据字典(内置存在的往来单位、税务组织、行政组织、核算组织等;发票常用业务术语等)(步骤13),最终通过卷积神经网络进行识别(步骤14),推断出汉字内容(步骤15)。
示例性装置
图3是本发明一示例性实施例提供的发票识别装置的结构示意图,如图3所示,该发票识别装置8包括:处理模块81,处理模块81用于对发票图片进行预处理,获得第一发票图片;其中,预处理包括降噪和确定目标文字区域;切割模块82,切割模块82用于对第一发票图片中的文字进行切割,获得第二发票图片;标记模块83,标记模块83用于标记第二发票图片中的文字的形态特征;以及识别模块84,识别模块84用于根据形态特征和图像特征,识别第二发票图片中的文字。
本发明实施例提供了一种发票识别装置,在文字识别过程中,通过对图片预处理,以及增加具有字体形态特征的标记,可以更准确的区分形状类似的字体,提升最终识别结果的准确性。
在一实施例中,上述标记模块83可以配置为:通过霍夫变换直线检测算法,利用点和线的对偶性,对第二发票图片的图像空间的坐标系进行变换;将欧式空间中的直线检测变换为霍夫空间下的峰值检测,记录第二发票图片中的每个文字的形态特征;其中,形态特征包括文字的直线特征、曲线特征和离断特征。
在一实施例中,上述发票识别装置8还可以配置为:获取业务数据字典,其中,业务数据字典包括预设的基础数据信息;基础数据信息表示与发票相关的名称和业务术语;其中,上述识别模块84可以对应配置为:根据形态特征、图像特征和业务数据字典,识别第二发票图片中的文字。
在一实施例中,上述处理模块81可以配置为:以预设阈值对发票图片进行二值化处理,获得降噪后的发票图片;采用索伯算子作为发票图片的边缘检测算子,对发票图片进行文字区域检测,获得确定目标文字区域的第一发票图片。
在一实施例中,上述处理模块81还可以配置为:通过卷积获取第一发票图片的横纵向的亮度差分Gx和Gy;根据亮度差分Gx和Gy,计算得到图像的像素灰度点G;其中,根据亮度差分Gx和Gy,计算得到图像的像素灰度点包括:G=(Gx^2+Gy^2)^-2;G表示像素灰度点,Gx和Gy表示亮度差分。
在一实施例中,上述切割模块82可以配置为:通过投影法对第一发票图片中的文字进行切割,获得第二发票图片。
在一实施例中,上述发票识别装置8还可以配置为:通过卷积神经网络提取第二发票图片中的形态特征和图像特征;其中,图像特征包括几何特征、形状特征、直方图特征、颜色特征和局部二值特征;其中,上述识别模块84可以对应配置为:根据形态特征、几何特征、形状特征、直方图特征、颜色特征和局部二值特征,识别第二发票图片中的文字。
在一实施例中,上述发票识别装置8还可以配置为:卷积层提取第二发票图片中的形态特征和图像特征;池化层对形态特征和图像特征进行抽样;经过多个卷积层的提取和多个池化层的抽样后,全连接层把提取到的所有特征连接起来;其中,上述识别模块84可以对应配置为:通过分类器获得所有特征的分类结果,根据分类结果获得第二发票图片中的文字。
在一实施例中,上述发票识别装置8还可以配置为:当存在第二发票图片中的文字识别结果与实际文字不一致时,记录不一致的第二发票图片以及对应的文字识别结果;记录识别不一致次数大于或等于预设次数的发票图片及文字识别结果。
本发明实施例提供了一种发票识别装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,除了CPU、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。
根据本发明的另一个方面,提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序用于执行上述任一实施例的发票识别方法。
除了上述方法和设备以外,本发明的实施例还可以是计算机程序产品,其包括计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的发票识别方法中的步骤。
根据本发明的另一个方面,提供了一种电子设备,电子设备包括:处理器;用于存储处理器可执行指令的存储器;处理器,用于执行上述任一实施例的发票识别方法。
此外,本发明的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的发票识别方法中的步骤。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种发票识别方法,其特征在于,包括:
对发票图片进行预处理,获得第一发票图片;其中,所述预处理包括降噪和确定目标文字区域;
对所述第一发票图片中的文字进行切割,获得第二发票图片;
标记所述第二发票图片中的文字的形态特征;以及
根据所述形态特征和图像特征,识别所述第二发票图片中的文字。
2.根据权利要求1所述的发票识别方法,其特征在于,所述标记所述第二发票图片中的文字的形态特征包括:
通过霍夫变换直线检测算法,利用点和线的对偶性,对所述第二发票图片的图像空间的坐标系进行变换;
将欧式空间中的直线检测变换为霍夫空间下的峰值检测,记录所述第二发票图片中的每个所述文字的形态特征;其中,所述形态特征包括所述文字的直线特征、曲线特征和离断特征。
3.根据权利要求1所述的发票识别方法,其特征在于,在所述根据所述形态特征和图像特征,识别所述第二发票图片中的文字之前,所述发票识别方法还包括:
获取业务数据字典,其中,所述业务数据字典包括预设的基础数据信息;所述基础数据信息表示与发票相关的名称和业务术语;
其中,所述根据所述形态特征和图像特征,识别所述第二发票图片中的文字包括:
根据所述形态特征、图像特征和所述业务数据字典,识别所述第二发票图片中的文字。
4.根据权利要求1所述的发票识别方法,其特征在于,所述对发票图片进行预处理,获得第一发票图片包括:
以预设阈值对所述发票图片进行二值化处理,获得降噪后的所述发票图片;
采用索伯算子作为所述发票图片的边缘检测算子,对所述发票图片进行文字区域检测,获得确定目标文字区域的所述第一发票图片。
5.根据权利要求4所述的发票识别方法,其特征在于,所述采用索伯算子作为所述发票图片的边缘检测算子,对所述发票图片进行文字区域检测包括:
通过卷积获取所述第一发票图片的横纵向的亮度差分Gx和Gy;
根据所述亮度差分Gx和Gy,计算得到图像的像素灰度点G;
其中,所述根据所述亮度差分Gx和Gy,计算得到图像的像素灰度点包括:G=(Gx^2+Gy^2)^-2;G表示所述像素灰度点,Gx和Gy表示所述亮度差分。
6.根据权利要求1所述的发票识别方法,其特征在于,所述对所述第一发票图片中的文字进行切割,获得第二发票图片包括:
通过投影法对所述第一发票图片中的文字进行切割,获得所述第二发票图片。
7.根据权利要求1所述的发票识别方法,其特征在于,在所述根据所述形态特征和图像特征,识别所述第二发票图片中的文字之前,所述发票识别方法还包括:
通过卷积神经网络提取所述第二发票图片中的所述形态特征和所述图像特征;其中,所述图像特征包括几何特征、形状特征、直方图特征、颜色特征和局部二值特征;
其中,所述根据所述形态特征和图像特征,识别所述第二发票图片中的文字包括:
根据所述形态特征、所述几何特征、所述形状特征、所述直方图特征、所述颜色特征和所述局部二值特征,识别所述第二发票图片中的文字。
8.根据权利要求7所述的发票识别方法,其特征在于,所述卷积神经网络包括多个卷积层、多个池化层、全连接层,所述卷积层和所述池化层交替连接,所述全连接层位于所述卷积神经网络的输出端,所述通过卷积神经网络提取所述第二发票图片中的所述形态特征和所述图像特征包括:
所述卷积层提取所述第二发票图片中的所述形态特征和所述图像特征;
所述池化层对所述形态特征和所述图像特征进行抽样;
经过多个所述卷积层的提取和多个所述池化层的抽样后,所述全连接层把提取到的所有特征连接起来;
其中,所述根据所述形态特征和图像特征,识别所述第二发票图片中的文字包括:
通过分类器获得所有特征的分类结果,根据所述分类结果获得所述第二发票图片中的文字。
9.根据权利要求1所述的发票识别方法,其特征在于,所述发票识别方法还包括:
当存在所述第二发票图片中的文字识别结果与实际文字不一致时,记录不一致的所述第二发票图片以及对应的文字识别结果;
记录识别不一致次数大于或等于预设次数的发票图片及文字识别结果。
10.一种发票识别装置,其特征在于,包括:
处理模块,所述处理模块用于对发票图片进行预处理,获得第一发票图片;其中,所述预处理包括降噪和确定目标文字区域;
切割模块,所述切割模块用于对所述第一发票图片中的文字进行切割,获得第二发票图片;
标记模块,所述标记模块用于标记所述第二发票图片中的文字的形态特征;以及
识别模块,所述识别模块用于根据所述形态特征和图像特征,识别所述第二发票图片中的文字。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310111282.1A CN116129573A (zh) | 2023-02-10 | 2023-02-10 | 一种发票识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310111282.1A CN116129573A (zh) | 2023-02-10 | 2023-02-10 | 一种发票识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116129573A true CN116129573A (zh) | 2023-05-16 |
Family
ID=86297106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310111282.1A Pending CN116129573A (zh) | 2023-02-10 | 2023-02-10 | 一种发票识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116129573A (zh) |
-
2023
- 2023-02-10 CN CN202310111282.1A patent/CN116129573A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10853638B2 (en) | System and method for extracting structured information from image documents | |
US10943105B2 (en) | Document field detection and parsing | |
CN109902622B (zh) | 一种用于登机牌信息验证的文字检测识别方法 | |
WO2020233270A1 (zh) | 票据分析方法、分析装置、计算机设备和介质 | |
US8494273B2 (en) | Adaptive optical character recognition on a document with distorted characters | |
US6249605B1 (en) | Key character extraction and lexicon reduction for cursive text recognition | |
CN109784342B (zh) | 一种基于深度学习模型的ocr识别方法及终端 | |
US7929769B2 (en) | Script recognition for ink notes | |
CN111353491B (zh) | 一种文字方向确定方法、装置、设备及存储介质 | |
US11893765B2 (en) | Method and apparatus for recognizing imaged information-bearing medium, computer device and medium | |
CN112395996A (zh) | 财务票据ocr识别及影像处理方法、系统及可读存储介质 | |
CA3155335A1 (en) | Docket analysis methods and systems | |
CN114463767A (zh) | 信用证识别方法、装置、计算机设备和存储介质 | |
CN111652117A (zh) | 一种对多文档图像分割的方法及介质 | |
CN111914706B (zh) | 一种文字检测输出结果质量检测和控制的方法与装置 | |
Verma et al. | A novel approach for structural feature extraction: contour vs. direction | |
CN116129573A (zh) | 一种发票识别方法及装置 | |
Kumar et al. | Line based robust script identification for indianlanguages | |
Nath et al. | Improving various offline techniques used for handwritten character recognition: a review | |
CN114495108A (zh) | 字符检测方法、装置、电子设备及可读介质 | |
CN114120305A (zh) | 文本分类模型的训练方法、文本内容的识别方法及装置 | |
Bisht et al. | Handwritten Devanagari Word Detection and Localization using Morphological Image Processing | |
JP3411796B2 (ja) | 文字認識装置 | |
KR102646428B1 (ko) | 인공지능 학습 모델을 이용한 유사 글자 추출 방법 및 장치 | |
KR102627591B1 (ko) | 문서로부터 정보를 추출하기 위한 장치의 동작 방법 및 그 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |