CN111444912A - 一种票据图像文字识别方法及装置 - Google Patents
一种票据图像文字识别方法及装置 Download PDFInfo
- Publication number
- CN111444912A CN111444912A CN202010036382.9A CN202010036382A CN111444912A CN 111444912 A CN111444912 A CN 111444912A CN 202010036382 A CN202010036382 A CN 202010036382A CN 111444912 A CN111444912 A CN 111444912A
- Authority
- CN
- China
- Prior art keywords
- image
- target
- bill
- character
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/635—Overlay text, e.g. embedded captions in a TV program
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种票据图像文字识别方法及装置,可以获得目标票据图像;将目标票据图像输入至预设的目标文字区域确定模型中,确定目标票据图像中的目标文字区域;将目标票据图像转化为YUV色彩空间的待识别文字图像,将待识别文字图像中目标文字区域的对比度调高,将除目标文字区域外的区域的对比度调低,以使待识别文字图像中的目标文字区域的对比度高于待识别文字图像中的除目标文字区域外的对比度;将待识别文字图像输入至预设的文字识别模型中,获得目标文字区域中的文字内容。本发明通过准确定位目标文字区域,并调整目标文字区域对比度的技术方案,解决了票据图像分辨率低造成的文字识别准确率低的技术问题,进而提高了文字识别准确率。
Description
技术领域
本发明涉及图像处理领域,尤其涉及一种票据图像文字识别方法及装置。
背景技术
如今,随着社会信息化的不断发展,在人们的日常生活和工作中需要将票据上的信息输入至计算机中。
现有文字识别装置可以对票据图像中的文字进行识别,然而在实际使用过程中,由于采集的票据图像分辨率低等原因,容易造成文字识别装置对票据图像中文字的识别准确率低。
发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的一种票据图像文字识别方法及装置,技术方案如下:
一种票据图像文字识别方法,包括:
获得目标票据图像;
将所述目标票据图像输入至预设的目标文字区域确定模型中,确定所述目标票据图像中的目标文字区域;
将所述目标票据图像转化为YUV色彩空间的待识别文字图像,将所述待识别文字图像中目标文字区域的对比度调高,将除所述目标文字区域外的区域的对比度调低,以使所述待识别文字图像中的所述目标文字区域的对比度高于所述待识别文字图像中的除所述目标文字区域外的对比度;
将所述待识别文字图像输入至预设的文字识别模型中,获得所述目标文字区域中的文字内容。
可选的,所述获得目标票据图像,包括:
通过图像校正方法对原始票据图像进行复原性处理,获得票据校正图像;
通过图像增强方法对所述票据校正图像进行特征增强,获得目标票据图像。
可选的,所述预设的目标文字区域确定模型的训练过程包括:
获得至少一个标注有文字区域的票据训练图像;
对所述票据训练图像进行机器学习,获得目标文字区域确定模型,其中,所述目标文字区域确定模型的输入为:票据图像,所述目标文字区域确定模型的输出为:在所述票据图像中确定目标文字区域。
可选的,所述将所述目标票据图像转化为YUV色彩空间的待识别文字图像,包括:
将所述目标票据图像转化为YUV色彩空间的待缩放票据图像;
按照与票据类型对应的缩放比例对所述待缩放票据图像进行缩放,获得待识别文字图像。
可选的,其特征在于,所述确定所述目标票据图像中的目标文字区域,包括:
通过非极大值抑制法滤除所述目标票据图像中的目标文字冗余区域,确定所述目标票据图像中的目标文字区域。
一种票据图像文字识别装置,包括:票据图像获得单元、文字区域确定单元、图像转化单元和文字内容获得单元,
所述票据图像获得单元,用于获得目标票据图像;
所述文字区域确定单元,用于将所述目标票据图像输入至预设的目标文字区域确定模型中,确定所述目标票据图像中的目标文字区域;
所述图像转化单元,用于将所述目标票据图像转化为YUV色彩空间的待识别文字图像,将所述待识别文字图像中目标文字区域的对比度调高,将除所述目标文字区域外的区域的对比度调低,以使所述待识别文字图像中的所述目标文字区域的对比度高于所述待识别文字图像中的除所述目标文字区域外的对比度;
所述文字内容获得单元,用于将所述待识别文字图像输入至预设的文字识别模型中,获得所述目标文字区域中的文字内容。
可选的,所述票据图像获得单元包括:票据校正图像获得单元和图像特征增强单元,
所述票据校正图像获得单元,用于通过图像校正方法对原始票据图像进行复原性处理,获得票据校正图像;
所述图像特征增强单元,用于通过图像增强方法对所述票据校正图像进行特征增强,获得目标票据图像。
可选的,所述装置还包括:用于对所述预设的目标文字区域确定模型进行训练的模型训练单元,所述模型训练单元包括:训练图像获得单元和目标文字区域确定模型获得单元,
所述训练图像获得单元,用于获得至少一个标注有文字区域的票据训练图像;
所述目标文字区域确定模型获得单元,用于对所述票据训练图像进行机器学习,获得目标文字区域确定模型,其中,所述目标文字区域确定模型的输入为:票据图像,所述目标文字区域确定模型的输出为:在所述票据图像中确定目标文字区域。
可选的,所述图像转化单元,包括:YUV色彩转化单元和图像缩放单元,
所述YUV色彩转化单元,用于将所述目标票据图像转化为YUV色彩空间的待缩放票据图像;
所述图像缩放单元,用于按照与票据类型对应的缩放比例对所述待缩放票据图像进行缩放,获得待识别文字图像。
可选的,所述文字区域确定单元具体用于通过非极大值抑制法滤除所述目标票据图像中的目标文字冗余区域,确定所述目标票据图像中的目标文字区域。
借由上述技术方案,本发明提供的一种票据图像文字识别方法及装置,可以获得目标票据图像;将目标票据图像输入至预设的目标文字区域确定模型中,确定目标票据图像中的目标文字区域;将目标票据图像转化为YUV色彩空间的待识别文字图像,将待识别文字图像中目标文字区域的对比度调高,将除目标文字区域外的区域的对比度调低,以使待识别文字图像中的目标文字区域的对比度高于待识别文字图像中的除目标文字区域外的对比度;将待识别文字图像输入至预设的文字识别模型中,获得目标文字区域中的文字内容。本发明通过准确定位目标文字区域,并调整目标文字区域对比度的技术方案,解决了票据图像分辨率低造成的文字识别准确率低的技术问题,进而提高了文字识别准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种票据图像文字识别方法的流程示意图;
图2示出了本发明实施例提供的另一种票据图像文字识别方法的流程示意图;
图3示出了本发明实施例提供的一种目标文字区域确定模型的训练方法的流程示意图;
图4示出了本发明实施例提供的一种票据图像文字识别装置的结构示意图;
图5示出了本发明实施例提供的另一种票据图像文字识别装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明实施例提供的一种票据图像文字识别方法,可以包括:
S100、获得目标票据图像。
其中,本发明实施例可以通过图像采集装置获得目标票据图像。图像采集装置可以包括:手机、照相机在内携带摄像头的装置。票据可以是各种有价证券和凭证。例如:债券、股票、提单、国库券、发票等。
在本发明的实际应用中,在用户使用不同的图像采集装置获得票据图像可能存在倾斜和模糊等失真的状况,为了使票据图像更加便于文字识别,如图2所示,本发明实施例提供的另一种票据图像文字识别方法,步骤S100可以包括:
S110、通过图像校正方法对原始票据图像进行复原性处理,获得票据校正图像。
其中,图像校正方法可以包括:几何校正法和灰度校正法。其中,几何校正法通过一些已知的参考点,即无失真图象的某些像素点和畸变图象相应像素点的坐标间对应关系,拟合出映射关系中的未知系数,并作为恢复其它像素的基础。灰度校正法可以包括:灰度级校正、灰度变化和直方图修正。
本发明实施例在使用几何校正法对票据图像进行复原性处理时,可以使用基于几何校正法建立的数学模型,从票据图像中提取所需的信息,沿着使票据图像失真的逆过程对票据图像进行恢复,获得票据校正图像。
S120、通过图像增强方法对所述票据校正图像进行特征增强,获得目标票据图像。
其中,图像增强方法可以包括:空域法和频域法。其中,空域法为通过局部求平均值法和中值滤波法去除或减弱图像噪声。频域法主要对图像进行基于傅里叶变换的信号增强,采用低通滤波法,可去掉图像中的噪声;采用高通滤波法,则可增强边缘等高频信号,使模糊的图像变得清晰。本发明实施例可以通过图像增强方法,对票据图像中需要的图像特征进行突出和/或对票据图像中不需要的图像特征进行抑制,获得更为清晰的目标票据图像。
本发明实施例通过对票据图像进行复原性处理和特征增强等预处理过程,使目标票据图像便于进行文字识别,进而提高对票据图像的文字识别准确性。
S200、将所述目标票据图像输入至预设的目标文字区域确定模型中,确定所述目标票据图像中的目标文字区域。
可选的,预设的目标文字区域确定模型可以是卷积神经网络模型。具体的,预设的目标文字区域确定模型可以是VGG(视觉几何组,Visual Geometry Group)网络模型。在实际应用中,本发明实施例可以首先进行目标文字区域确定模型的训练,如图3所示,本发明实施例提供的一种目标文字区域确定模型的训练方法,可以包括:
S001、获得至少一个标注有文字区域的票据训练图像。
S002、对所述票据训练图像进行机器学习,获得目标文字区域确定模型,其中,所述目标文字区域确定模型的输入为:票据图像,所述目标文字区域确定模型的输出为:在所述票据图像中确定目标文字区域。
本发明实施例可以通过VGG16模型对标注有文字区域的票据训练图像进行机器学习,使VGG16模型的conv5_3输出票据训练图像的票据训练特征图,再通过预设的卷积参数对票据训练特征图进行卷积,获得票据训练图像中标注的文字区域的特征向量。本发明实施例再将票据训练图像中标注的文字区域的特征向量输入至基于LSTM(Long Short TermMemory,长短期记忆)网络的双向循环神经网络中进行记忆,获得目标文字区域确定模型。
在本发明的实际使用中,在将目标票据图像输入至预设的目标文字区域确定模型中,预设的目标文字区域确定模型提取目标票据图像的票据特征图,再通过预设的卷积参数对票据特征图进行卷积,获得票据特征图的特征向量,将票据特征图的特征向量与票据训练图像中标注的文字区域的特征向量进行对比,确定目标票据图像中的目标文字区域。
可选的,预选的卷积参数可以包括:卷积核的大小为3×3。
可选的,目标文字区域的边界可以使用与目标票据图像进行区分的颜色进行显示,例如,目标文字区域的边界构成黄色的标注框。
可选的,在预设的目标文字区域确定模型确定目标文字区域的过程中可能会对一个实际文字区域确定多个互相部分重叠的预选文字区域,为了使最后确定的目标文字区域更加接近实际文字区域,需要对多个互相部分重叠的预选文字区域中的冗余区域进行滤除。因此,本发明实施例中的所述确定所述目标票据图像中的目标文字区域的步骤,可以包括:
通过非极大值抑制法滤除所述目标票据图像中的目标文字冗余区域,确定所述目标票据图像中的目标文字区域。
其中,非极大值抑制法(Non-Maximum Suppression,NMS)可以抑制不是极大值的元素,即对一个领域最大搜索。本发明实施例通过非极大值抑制法,将多个互相部分重叠的预选文字区域中的目标文字冗余区域滤除,将滤除后剩下的预选文字区域确定为目标文字区域。
S300、将所述目标票据图像转化为YUV色彩空间的待识别文字图像,将所述待识别文字图像中目标文字区域的对比度调高,将除所述目标文字区域外的区域的对比度调低,以使所述待识别文字图像中的所述目标文字区域的对比度高于所述待识别文字图像中的除所述目标文字区域外的对比度。
其中,YUV中的“Y”表示明亮度(Luminance或Luma),也就是灰阶值,“U”和“V”表示色度(Chrominance或Chroma),作用是描述影像色彩及饱和度,用于指定像素的颜色。在实际应用中,用图像采集装置采集的目标票据图像的色彩空间(Color Space)为RGB。为了使对目标票据图像中的文字识别更接近人眼识别的结果,本发明实施例通过现有的转化公式将目标票据图像的色彩空间从RGB转换为YUV。
具体的,本发明实施例可以将目标文字区域的对比度调高至第一对比度以上,将除所述目标文字区域外的区域对比度调低至第二对比度以下,其中第一对比度与第二对比度间隔预设的数值。预设的数值可以根据实际需要设置。本发明实施例通过调高待识别文字图像中的目标文字区域的对比度,调低除目标文字区域外的区域的对比度,使待识别文字图像中的目标文字区域与除目标文字区域外的区域可以显著区分,避免了从待识别文字图像中提取出目标文字区域的繁琐步骤,便于后续对目标文字区域中的文字进行识别。
可选的,步骤S300可以包括:将所述目标票据图像转化为YUV色彩空间的待缩放票据图像;按照与票据类型对应的缩放比例对所述待缩放票据图像进行缩放,获得待识别文字图像。
可以理解的是,票据存在多种类型,每种类型的票据的实际文字区域都不一样,而对图像进行合理的缩放,可以增加图像的平滑度和清晰度。因此,本发明实施例可以预先对各种类型的票据设置对应的缩放比例,以使在对待缩放票据图像进行缩放时,使用与票据类型对应的缩放比例进行缩放,以使缩放后获得的待识别文字图像更加清晰,便于文字识别。
S400、将所述待识别文字图像输入至预设的文字识别模型中,获得所述目标文字区域中的文字内容。
具体的,本发明实施例可以使用预先训练好的文字识别模型或是使用现成的文字识别模型对待识别文字图像中的目标文字区域进行文字识别,获得目标文字区域中的文字内容。
具体的,本发明实施例可以使用现有的文字识别技术从待识别文字图像的目标文字区域中获得文字内容。例如,本发明实施例可以使用OCR (Optical CharacterRecognition,光学字符识别)技术从待识别文字图像的目标文字区域中识别文字,从而获得文字内容。
具体的,本发明实施例可以通过现有的文字识别技术来训练获得文字识别模型,具体的训练可以包括:
获得训练样本,对所述训练样本中的文字添加标注;
导入训练样本进行机器训练,获得文字识别模型,其中,文字识别模型的输入为:携带文字的图像,文字识别模型的输出为:文字内容。
本发明实施例提供的一种票据图像文字识别方法,可以获得目标票据图像;将所述目标票据图像输入至预设的目标文字区域确定模型中,确定所述目标票据图像中的目标文字区域;将所述目标票据图像转化为YUV色彩空间的待识别文字图像,将所述待识别文字图像中目标文字区域的对比度调高,将除所述目标文字区域外的区域的对比度调低,以使所述待识别文字图像中的所述目标文字区域的对比度高于所述待识别文字图像中的除所述目标文字区域外的对比度;将所述待识别文字图像输入至预设的文字识别模型中,获得所述目标文字区域中的文字内容。本发明实施例通过准确定位目标票据图像的目标文字区域,并调整对比度将目标文字区域与其他区域进行区分,进而可以对目标文字区域进行文字识别获得文字内容的技术方案,解决了票据图像分辨率低造成的文字识别准确率低的技术问题,进而提高了文字识别准确率。
与上述方法实施例相对应,本发明实施例还提供一种票据图像文字识别装置,其结构如图4所示,可以包括:票据图像获得单元100、文字区域确定单元200、图像转化单元300和文字内容获得单元400。
所述票据图像获得单元100,用于获得目标票据图像。
其中,本发明实施例可以通过图像采集装置获得目标票据图像。图像采集装置可以包括:手机、照相机在内携带摄像头的装置。票据可以是各种有价证券和凭证。例如:债券、股票、提单、国库券、发票等。
可选的,如图5所示,本发明实施例还提供另一种票据图像文字识别装置,所述票据图像获得单元100包括:票据校正图像获得单元110和图像特征增强单元120。
所述票据校正图像获得单元110,用于通过图像校正方法对原始票据图像进行复原性处理,获得票据校正图像。
其中,图像校正方法可以包括:几何校正法和灰度校正法。其中,几何校正法通过一些已知的参考点,即无失真图象的某些像素点和畸变图象相应像素点的坐标间对应关系,拟合出映射关系中的未知系数,并作为恢复其它像素的基础。灰度校正法可以包括:灰度级校正、灰度变化和直方图修正。
本发明实施例在使用几何校正法对票据图像进行复原性处理时,可以使用基于几何校正法建立的数学模型,从票据图像中提取所需的信息,沿着使票据图像失真的逆过程对票据图像进行恢复,获得票据校正图像。
所述图像特征增强单元120,用于通过图像增强方法对所述票据校正图像进行特征增强,获得目标票据图像。
其中,图像增强方法可以包括:空域法和频域法。其中,空域法为通过局部求平均值法和中值滤波法去除或减弱图像噪声。频域法主要对图像进行基于傅里叶变换的信号增强,采用低通滤波法,可去掉图像中的噪声;采用高通滤波法,则可增强边缘等高频信号,使模糊的图像变得清晰。本发明实施例可以通过图像增强方法,对票据图像中需要的图像特征进行突出和/或对票据图像中不需要的图像特征进行抑制,获得更为清晰的目标票据图像。
本发明实施例通过对票据图像进行复原性处理和特征增强等预处理过程,使目标票据图像便于进行文字识别,进而提高对票据图像的文字识别准确性。
所述文字区域确定单元200,用于将所述目标票据图像输入至预设的目标文字区域确定模型中,确定所述目标票据图像中的目标文字区域。
可选的,预设的目标文字区域确定模型可以是卷积神经网络模型。具体的,预设的目标文字区域确定模型可以是VGG(视觉几何组,Visual Geometry Group)网络模型。
可选的,本发明实施例提供的另一种票据图像文字识别装置,还可以包括:用于对所述预设的目标文字区域确定模型进行训练的模型训练单元,所述模型训练单元包括:训练图像获得单元和目标文字区域确定模型获得单元,
所述训练图像获得单元,用于获得至少一个标注有文字区域的票据训练图像。
所述目标文字区域确定模型获得单元,用于对所述票据训练图像进行机器学习,获得目标文字区域确定模型,其中,所述目标文字区域确定模型的输入为:票据图像,所述目标文字区域确定模型的输出为:在所述票据图像中确定目标文字区域。
本发明实施例可以通过VGG16模型对标注有文字区域的票据训练图像进行机器学习,使VGG16模型的conv5_3输出票据训练图像的票据训练特征图,再通过预设的卷积参数对票据训练特征图进行卷积,获得票据训练图像中标注的文字区域的特征向量。本发明实施例再将票据训练图像中标注的文字区域的特征向量输入至基于LSTM(Long Short TermMemory,长短期记忆)网络的双向循环神经网络中进行记忆,获得目标文字区域确定模型。
在本发明的实际使用中,在将目标票据图像输入至预设的目标文字区域确定模型中,预设的目标文字区域确定模型提取目标票据图像的票据特征图,再通过预设的卷积参数对票据特征图进行卷积,获得票据特征图的特征向量,将票据特征图的特征向量与票据训练图像中标注的文字区域的特征向量进行对比,确定目标票据图像中的目标文字区域。
可选的,预选的卷积参数可以包括:卷积核的大小为3×3。
可选的,目标文字区域的边界可以使用与目标票据图像进行区分的颜色进行显示,例如,目标文字区域的边界构成黄色的标注框。
可选的,在预设的目标文字区域确定模型确定目标文字区域的过程中可能会对一个实际文字区域确定多个互相部分重叠的预选文字区域,为了使最后确定的目标文字区域更加接近实际文字区域,需要对多个互相部分重叠的预选文字区域中的冗余区域进行滤除。
因此,所述文字区域确定单元200具体用于通过非极大值抑制法滤除所述目标票据图像中的目标文字冗余区域,确定所述目标票据图像中的目标文字区域。
其中,非极大值抑制法(Non-Maximum Suppression,NMS)可以抑制不是极大值的元素,即对一个领域最大搜索。本发明实施例通过非极大值抑制法,将多个互相部分重叠的预选文字区域中的目标文字冗余区域滤除,将滤除后剩下的预选文字区域确定为目标文字区域。
所述图像转化单元300,用于将所述目标票据图像转化为YUV色彩空间的待识别文字图像,将所述待识别文字图像中目标文字区域的对比度调高,将除所述目标文字区域外的区域的对比度调低,以使所述待识别文字图像中的所述目标文字区域的对比度高于所述待识别文字图像中的除所述目标文字区域外的对比度。
其中,YUV中的“Y”表示明亮度(Luminance或Luma),也就是灰阶值,“U”和“V”表示色度(Chrominance或Chroma),作用是描述影像色彩及饱和度,用于指定像素的颜色。在实际应用中,用图像采集装置采集的目标票据图像的色彩空间(Color Space)为RGB。为了使对目标票据图像中的文字识别更接近人眼识别的结果,本发明实施例通过现有的转化公式将目标票据图像的色彩空间从RGB转换为YUV。
具体的,本发明实施例可以将目标文字区域的对比度调高至第一对比度以上,将除所述目标文字区域外的区域对比度调低至第二对比度以下,其中第一对比度与第二对比度间隔预设的数值。预设的数值可以根据实际需要设置。本发明实施例通过调高待识别文字图像中的目标文字区域的对比度,调低除目标文字区域外的区域的对比度,使待识别文字图像中的目标文字区域与除目标文字区域外的区域可以显著区分,避免了从待识别文字图像中提取出目标文字区域的繁琐步骤,便于后续对目标文字区域中的文字进行识别。
可选的,所述图像转化单元300,包括:YUV色彩转化单元和图像缩放单元。
所述YUV色彩转化单元,用于将所述目标票据图像转化为YUV色彩空间的待缩放票据图像。
所述图像缩放单元,用于按照与票据类型对应的缩放比例对所述待缩放票据图像进行缩放,获得待识别文字图像。
可以理解的是,票据存在多种类型,每种类型的票据的实际文字区域都不一样,而对图像进行合理的缩放,可以增加图像的平滑度和清晰度。因此,本发明实施例可以预先对各种类型的票据设置对应的缩放比例,以使在对待缩放票据图像进行缩放时,使用与票据类型对应的缩放比例进行缩放,以使缩放后获得的待识别文字图像更加清晰,便于文字识别。
所述文字内容获得单元400,用于将所述待识别文字图像输入至预设的文字识别模型中,获得所述目标文字区域中的文字内容。
具体的,本发明实施例可以使用预先训练好的文字识别模型或是使用现成的文字识别模型对待识别文字图像中的目标文字区域进行文字识别,获得目标文字区域中的文字内容。
具体的,本发明实施例可以使用现有的文字识别技术从待识别文字图像的目标文字区域中获得文字内容。例如,本发明实施例可以使用OCR (Optical CharacterRecognition,光学字符识别)技术从待识别文字图像的目标文字区域中识别文字,从而获得文字内容。
本发明实施例提供的一种票据图像文字识别装置,可以获得目标票据图像;将所述目标票据图像输入至预设的目标文字区域确定模型中,确定所述目标票据图像中的目标文字区域;将所述目标票据图像转化为YUV色彩空间的待识别文字图像,将所述待识别文字图像中目标文字区域的对比度调高,将除所述目标文字区域外的区域的对比度调低,以使所述待识别文字图像中的所述目标文字区域的对比度高于所述待识别文字图像中的除所述目标文字区域外的对比度;将所述待识别文字图像输入至预设的文字识别模型中,获得所述目标文字区域中的文字内容。本发明实施例通过准确定位目标票据图像的目标文字区域,并调整对比度将目标文字区域与其他区域进行区分,进而可以对目标文字区域进行文字识别获得文字内容的技术方案,解决了票据图像分辨率低造成的文字识别准确率低的技术问题,进而提高了文字识别准确率。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种票据图像文字识别方法,其特征在于,包括:
获得目标票据图像;
将所述目标票据图像输入至预设的目标文字区域确定模型中,确定所述目标票据图像中的目标文字区域;
将所述目标票据图像转化为YUV色彩空间的待识别文字图像,将所述待识别文字图像中目标文字区域的对比度调高,将除所述目标文字区域外的区域的对比度调低,以使所述待识别文字图像中的所述目标文字区域的对比度高于所述待识别文字图像中的除所述目标文字区域外的对比度;
将所述待识别文字图像输入至预设的文字识别模型中,获得所述目标文字区域中的文字内容。
2.根据权利要求1所述的方法,其特征在于,所述获得目标票据图像,包括:
通过图像校正方法对原始票据图像进行复原性处理,获得票据校正图像;
通过图像增强方法对所述票据校正图像进行特征增强,获得目标票据图像。
3.根据权利要求1所述的方法,其特征在于,所述预设的目标文字区域确定模型的训练过程包括:
获得至少一个标注有文字区域的票据训练图像;
对所述票据训练图像进行机器学习,获得目标文字区域确定模型,其中,所述目标文字区域确定模型的输入为:票据图像,所述目标文字区域确定模型的输出为:在所述票据图像中确定目标文字区域。
4.根据权利要求1所述的方法,其特征在于,所述将所述目标票据图像转化为YUV色彩空间的待识别文字图像,包括:
将所述目标票据图像转化为YUV色彩空间的待缩放票据图像;
按照与票据类型对应的缩放比例对所述待缩放票据图像进行缩放,获得待识别文字图像。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述确定所述目标票据图像中的目标文字区域,包括:
通过非极大值抑制法滤除所述目标票据图像中的目标文字冗余区域,确定所述目标票据图像中的目标文字区域。
6.一种票据图像文字识别装置,其特征在于,包括:票据图像获得单元、文字区域确定单元、图像转化单元和文字内容获得单元,
所述票据图像获得单元,用于获得目标票据图像;
所述文字区域确定单元,用于将所述目标票据图像输入至预设的目标文字区域确定模型中,确定所述目标票据图像中的目标文字区域;
所述图像转化单元,用于将所述目标票据图像转化为YUV色彩空间的待识别文字图像,将所述待识别文字图像中目标文字区域的对比度调高,将除所述目标文字区域外的区域的对比度调低,以使所述待识别文字图像中的所述目标文字区域的对比度高于所述待识别文字图像中的除所述目标文字区域外的对比度;
所述文字内容获得单元,用于将所述待识别文字图像输入至预设的文字识别模型中,获得所述目标文字区域中的文字内容。
7.根据权利要求6所述的装置,其特征在于,所述票据图像获得单元包括:票据校正图像获得单元和图像特征增强单元,
所述票据校正图像获得单元,用于通过图像校正方法对原始票据图像进行复原性处理,获得票据校正图像;
所述图像特征增强单元,用于通过图像增强方法对所述票据校正图像进行特征增强,获得目标票据图像。
8.根据权利要求6所述的装置,其特征在于,还包括:用于对所述预设的目标文字区域确定模型进行训练的模型训练单元,所述模型训练单元包括:训练图像获得单元和目标文字区域确定模型获得单元,
所述训练图像获得单元,用于获得至少一个标注有文字区域的票据训练图像;
所述目标文字区域确定模型获得单元,用于对所述票据训练图像进行机器学习,获得目标文字区域确定模型,其中,所述目标文字区域确定模型的输入为:票据图像,所述目标文字区域确定模型的输出为:在所述票据图像中确定目标文字区域。
9.根据权利要求6所述的装置,其特征在于,所述图像转化单元,包括:YUV色彩转化单元和图像缩放单元,
所述YUV色彩转化单元,用于将所述目标票据图像转化为YUV色彩空间的待缩放票据图像;
所述图像缩放单元,用于按照与票据类型对应的缩放比例对所述待缩放票据图像进行缩放,获得待识别文字图像。
10.根据权利要求6至9中任一项所述的装置,其特征在于,所述文字区域确定单元具体用于通过非极大值抑制法滤除所述目标票据图像中的目标文字冗余区域,确定所述目标票据图像中的目标文字区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010036382.9A CN111444912A (zh) | 2020-01-14 | 2020-01-14 | 一种票据图像文字识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010036382.9A CN111444912A (zh) | 2020-01-14 | 2020-01-14 | 一种票据图像文字识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111444912A true CN111444912A (zh) | 2020-07-24 |
Family
ID=71650641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010036382.9A Pending CN111444912A (zh) | 2020-01-14 | 2020-01-14 | 一种票据图像文字识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444912A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113052161A (zh) * | 2021-04-30 | 2021-06-29 | 中国银行股份有限公司 | 一种银行票据文本的识别方法、装置及设备 |
CN113378820A (zh) * | 2021-07-02 | 2021-09-10 | 深圳市东亿健康服务有限公司 | 数字病理切片目标区域的识别方法及系统 |
CN113705569A (zh) * | 2021-08-31 | 2021-11-26 | 北京理工大学重庆创新中心 | 一种图像标注方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446621A (zh) * | 2018-03-14 | 2018-08-24 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN108960062A (zh) * | 2018-06-01 | 2018-12-07 | 平安科技(深圳)有限公司 | 校正发票图像的方法、装置、计算机设备和存储介质 |
CN110647829A (zh) * | 2019-09-12 | 2020-01-03 | 全球能源互联网研究院有限公司 | 一种票据的文本识别方法及系统 |
-
2020
- 2020-01-14 CN CN202010036382.9A patent/CN111444912A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446621A (zh) * | 2018-03-14 | 2018-08-24 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN108960062A (zh) * | 2018-06-01 | 2018-12-07 | 平安科技(深圳)有限公司 | 校正发票图像的方法、装置、计算机设备和存储介质 |
CN110647829A (zh) * | 2019-09-12 | 2020-01-03 | 全球能源互联网研究院有限公司 | 一种票据的文本识别方法及系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113052161A (zh) * | 2021-04-30 | 2021-06-29 | 中国银行股份有限公司 | 一种银行票据文本的识别方法、装置及设备 |
CN113378820A (zh) * | 2021-07-02 | 2021-09-10 | 深圳市东亿健康服务有限公司 | 数字病理切片目标区域的识别方法及系统 |
CN113705569A (zh) * | 2021-08-31 | 2021-11-26 | 北京理工大学重庆创新中心 | 一种图像标注方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109376658B (zh) | 一种基于深度学习的ocr方法 | |
CN111444912A (zh) | 一种票据图像文字识别方法及装置 | |
CN110378310B (zh) | 一种基于答案库的手写样本集的自动生成方法 | |
RU2659745C1 (ru) | Реконструкция документа из серии изображений документа | |
CN107491730A (zh) | 一种基于图像处理的化验单识别方法 | |
Kumar et al. | Analytical review of preprocessing techniques for offline handwritten character recognition | |
CN111401372A (zh) | 一种扫描文档图文信息提取与鉴别的方法 | |
CN107133929B (zh) | 基于背景估计和能量最小化的低质量文档图像二值化方法 | |
EP2014082A1 (en) | Generating a bitonal image from a scanned colour image | |
CN112183038A (zh) | 一种表格识别套打方法、计算机设备及计算机可读存储介质 | |
Shrenika et al. | Sign language recognition using template matching technique | |
Demilew et al. | Ancient Geez script recognition using deep learning | |
CN116071763B (zh) | 基于文字识别的教辅图书智能校编系统 | |
WO2022127384A1 (zh) | 文字识别方法、电子设备和计算机可读存储介质 | |
CN114283156A (zh) | 一种用于去除文档图像颜色及手写笔迹的方法及装置 | |
CN108932492A (zh) | 一种基于非采样剪切波变换的图像指纹提取方法 | |
Sehad et al. | Gabor filters for degraded document image binarization | |
CN114005127A (zh) | 一种基于深度学习的图像光学文字识别方法,存储装置及服务器 | |
Mancas-Thillou et al. | Super-resolution text using the teager filter | |
Mohsin et al. | Developing an Arabic handwritten recognition system by means of artificial neural network | |
CN111445402B (zh) | 一种图像去噪方法及装置 | |
CN105721738B (zh) | 一种彩色扫描文档图像预处理方法 | |
Verma et al. | Enhanced character recognition using surf feature and neural network technique | |
Qian et al. | A digit recognition system for paper currency identification based on virtual instruments | |
CN111768436B (zh) | 一种基于Faster-RCNN改进的图像特征块配准方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200724 |
|
RJ01 | Rejection of invention patent application after publication |