CN104899571A - 一种用于复杂文字识别的随机样本产生方法 - Google Patents

一种用于复杂文字识别的随机样本产生方法 Download PDF

Info

Publication number
CN104899571A
CN104899571A CN201510323798.8A CN201510323798A CN104899571A CN 104899571 A CN104899571 A CN 104899571A CN 201510323798 A CN201510323798 A CN 201510323798A CN 104899571 A CN104899571 A CN 104899571A
Authority
CN
China
Prior art keywords
character
noise
random sample
pending
distortion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510323798.8A
Other languages
English (en)
Other versions
CN104899571B (zh
Inventor
刘世林
何宏靖
吴雨浓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Business Big Data Technology Co Ltd
Original Assignee
Chengdu Business Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Business Big Data Technology Co Ltd filed Critical Chengdu Business Big Data Technology Co Ltd
Priority to CN201510323798.8A priority Critical patent/CN104899571B/zh
Publication of CN104899571A publication Critical patent/CN104899571A/zh
Application granted granted Critical
Publication of CN104899571B publication Critical patent/CN104899571B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/333Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及图像识别领域,特别涉及一种用于复杂文字识别的随机样本产生方法。在复杂文字识别中,通过分析文字复杂性的原因,在与待识别字符相似的标准字符的基础上使用随机样本生成器产生的包含待识别图片噪声模型和扭曲特征模型的大量样本。随机样本生成器自动生成的训练样本中包含各种复杂的噪声和扭曲变形,可以满足各种复杂文字识别的需要;将上述随机样本作为训练样本输入深度神经网络中,可以解决训练深度神经网络来识别文字时需要大量人工标注的问题,使复杂文字图像的自动识别变得更加简单易行,显著节省了相关的人工成本。

Description

一种用于复杂文字识别的随机样本产生方法
技术领域
本发明涉及图像识别领域,特别涉及一种用于复杂文字识别的随机样本产生方法。
背景技术
图片识别在智能识别领域具有十分重要的意义,随着科技的进步和社会的发展,对图片中文字的自动识别的需求量也急速增加。传统的光学文字识别(OCR)系统常常用于识别使用光学设备扫描生成的文档,比如数字化古籍,识别名片、发票、表单等。通常这类扫描文档有着比较高的分辨率和对比度,而且打印字体一般都比较单一规整,提取用于识别的单个文字变得比较简单。所以这类文档识别的核心是消除噪音,噪音的消除方法比较多:比如使用高斯进行平滑化处理,然后使用阈值化对图片进行二值化,最后提取工程化设计好的特征向量进行模版匹配或者交付给分类器进行识别。
随着互联网的发展和移动设备的普及,产生了大量含有复杂噪音或者各种变形的文字图片,比如验证码图片、随手拍照片、车辆车牌等。复杂噪音产生的原因既包括了客观因素,比如拍照状况的复杂性、拍照设备的质量偏低;也包括了主观因素,比如为了网站安全,将验证码的噪音和扭曲都人为设计得很复杂。为了从大量公开的多媒体数据中挖掘出有价值的信息,识别这些复杂文字图片开始变得很有意义。
识别这些复杂文字时,使用传统的OCR方法,在识别速度和准确性方面已经难以满足庞大数据的识别要求。随着人工神经网络的出现,使得图像和语音识别变得简单高效;而深度神经网络在图像和语音识别领域都得到了突破性的进展,但是使用神经网络来进行文字或者语音识别之前,需要输入大量的标注数据来完成神经网络的训练;而深度神经网络所需要的标注数据量更加巨大,比如谷歌的语音识别系统使用了上万小时的带标注的语音训练数据,这就需要消耗大量的人力成本。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种用于复杂文字识别的随机样本产生方法。通过分析文字复杂性的原因,自动生成大量的可供深度神经网络使用的包含各种噪声和扭曲特征的训练样本,解决了现有技术中使用深度神经网络识别文字时需要大量的人力标注的问题,显著的节约了人力成本;提高识别的效率。
为了实现上述发明目的,本发明提供了以下技术方案:
一种用于复杂文字识别的随机样本产生方法,包括以下实现步骤:
(1-1)选取一定数量的待处理样本(比如说500个)。将目标样本图片中所包含的字符切分出来,将待处理图片中的字符串切分成仅包含单个字符的待处理子图片。其中所述待处理样本图片从待识别图片集中选取,包含待识别图片的一般噪声特征和、或扭曲特征。本发明随机样本生成方法的目的是用于复杂文字识别;因此在进行样本分析时,选取的待处理图片也应该是具有待识别图片的一般特征,比如说待识别图片中包含点状背景噪声和线条噪声,那么选取的待处理图片中也应该包含这些特征,以便于在接下来步骤中来构建相应的模型。
(1-2)对上述待处理子图片进行分析,选取与目标图片字符最相似的字体库(字体库的选择可以依经验进行人工选择,也可以通过机器自动对比,通过机器自动对比时:通过分析各个字体库与目标图片中对应字符的特征,计算字体的相似度,选择相似度最高的字体);分析目标图片字符的字符集(比如说待处理图片中仅仅包含数字,那么只需要对应研究数字集“0、1、2、3、4、5、6、7、8、9”而不需要研究汉字集;当待识别图片中既包括字母又包括数字还包括汉字,比如说常见的车牌号识别,就需要对汉字、字母以及数字都进行研究;而且本发明所说的字符集是指待识别图片集中所包含的所有字符构成的集合,比如说待识别图片集中包含1000个汉字,那么只需要选择这1000个汉字作为进行处理的字符集)。
(1-3)分析待处理子图片的噪声情况和扭曲特征,在已选择字体库的标准字符的基础上构建相应的噪声模型和,或扭曲模型。所谓构建噪声模型是指将待处理子图片中所包含的各类噪声进行相应的归类,在归类的基础上对每类噪声分布情况和复杂程度进统计和计算,将噪声参数模型化;复杂文字识别可能遇到的噪声种类很多,比如说背景噪声、线条噪声和,或污染物噪声等;所述构建扭曲模型是指将待处理子图片中所包含的扭曲特性进行相应的归类,在分类的基础上对扭曲的程度和扭曲范围进行统计和计算,将扭曲参数模型化;待处理目标图片的扭曲特征包括由仿射变换产生的平移、压缩、拉伸、旋转和,或扭曲。
(1-4)根据噪声模型和扭曲的复杂程度,选择一定的变化步长在已选择字体库标准字符的基础上生成大量的随机样本。
比如说步骤(3)中已分析出的噪声模型包括背景中的点状噪声、线条噪声;扭曲特征为旋转,其中点状噪声的灰度值分布在10-90之间,线条噪声的长度和宽度分布在0-100和1-3(这里指像素点的个数)之间,旋转度在-30°到30°之间,这样根据这些噪声模型和扭曲特征的复杂度可以在已选择字体库中的标准字的基础上,生成包括背景噪声像素灰度值为10、11、12.........90;线条噪声长度为0、1、2、3............100,宽度为1、2、3;旋转度在-30°、-29°、-28°......0°......28°、29°、30°等特征组合的随机样本;假定产生随机样本的尺寸为50*50像素大小,那么针对单个字符可产生的随机样本个数为8050*50*100*3*60数量巨大(事实上旋转度用浮点数表示,可以选择步长值可以为浮点数,这样所可以产生的样本个数非常巨大,可满足各种复杂神经网络的训练需要)。
作为一种优选,实际工作中为了避免因构造点状背景噪声产生数量过大的随机样本;点状背景噪声产生方式为:通过计算待处理图片中点状噪声的平均灰度以及方差值,在构造点状噪声时,通过使用高斯采样的方式随机设置噪声的灰度值。
进一步的,待识别图片的表面具有污染物的时候,比如车牌上的泥浆点,泥浆点的表现为字体的表面具有类似椭圆状或者放射状的斑点,可以选择椭圆或者放射状形状的像素块,通过设置这些像素块的灰度值从而实现表面污染物噪声的构建。
进一步的,图片的扭曲特征如:平移、压缩、拉伸、旋转和扭曲都可以根据仿射变换来构建,仿射变换一般可用下列公式来进行表示: T = A · x y + B , 其中 x y 为为原像素点的位置向量,x为横坐标,y为纵坐标, A = a 00 a 01 a 10 a 11 2 × 2 为系数矩阵,T为仿射变换后的对应像素点的位置向量; B = b 00 b 10 2 × 1 为常数向量;上述公式还可以写成:T=M·[x,y,1]T,M仿射变化系数矩阵, M = a 00 a 01 b 00 a 10 a 11 b 10 2 × 3 . 具体的,平移变化的情况:在系数矩阵为单位矩阵的情况下,加上常数向量就可实现;缩放变化的系数矩阵为对角矩阵分别调整x和y坐标的缩放倍数;而旋转变换的系数矩阵 A = cos θ sin θ - sin θ cos θ 2 × 2 和常数向量 ( 1 - cos θ ) * c . x - sin θ * c . y sin θ * c . x + ( 1 - cos θ ) * c . y , 其中c是旋转的中心点(c.x为中心的横坐标值,c.y为中心的纵坐标值),θ是旋转的角度;而且通过步骤(1-3)中对待处理图片中扭曲程度和模式统计分析,也可以计算出对应系数矩阵的取值范围,这样在进行扭曲样本构建时,通过在所述取值范围内,随机选取相关参数来设置系数矩阵,将该系数矩阵乘以标准字符的位置向量,就可以得到不同扭曲程度的随机样本。
进一步的,可以根据待处理样本的特点,仅仅选取字符的某一部分进行仿射变换,这样所产生的对应随机样本仅仅在字符中的对应区域具有扭曲特征。
进一步的,生成随机样本时,诸如背景噪声、线条噪声、污染物噪声等为可加噪声,即可以通过将字符与噪声进行叠加形成完整的样本图片。扭曲特征可对具有噪声的字符图片进行整体处理;也可以仅对字符进行扭曲处理,然后将扭曲的字符与其他噪声进行叠加形成样本图片。
进一步的,各类噪声和扭曲特征都可以组合出现。这样可以产生出数量庞大的各类随机样本。
与现有技术相比,本发明的有益效果:本发明提一种用于复杂文字识别的随机样本产生方法,通过在待识别图片中选取一定数量的包含待识别图片一般噪声和扭曲特征的样本作为待处理图片,将待处理图片中的字符串切分成仅包含单个字符的子图片。选择与待处理子图片最接近的字体库,在字体库的基础上选取与待识别字符相对应的字符集;通过对待处理子图片中噪声和、或扭曲特性的统计分析,建立对应的噪声模型和、或扭曲模型;并且通过统计分析噪声和扭曲特征的复杂度选择一定的步长在已选择字体库标准字的基础上随机自动生成大量的包含各种噪声和扭曲特征的训练样本;上述随机训练可供深度神经网络训练使用;解决了现有技术中使用深度神经网络识别图片时需要大量人工标注的问题,极大的节省的人力成本。
附图说明:
图1为随机样本生成器的实现步骤示意图。
图2为包含点状背景噪声的图片示例。
图3为包含点状背景噪声且字符倾斜的图片示例1。
图4为包含点状背景噪声且字符倾斜的图片示例2。
图5为包含点状背景噪声且字符具有仿射变化的图片示例。
图6为包含点状背景噪声且具有线条噪声的图片示例。
图7为基于深度学习的复杂文字识别方法的实现步骤示意图。
图8为基于深度学习的复杂文字识别方法的实现过程示意图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
本发明的目的在于克服现有技术中所存在的上述不足,提供一种用于复杂文字识别的随机样本产生方法。通过分析文字复杂性的原因,自动生成大量的可供深度神经网络使用的包含各种噪声和扭曲特征的训练样本,解决了现有技术中使用深度神经网络识别文字时需要大量的人力标注的问题,显著的节约了人力成本。
为了实现上述发明目的,本发明提供了以下技术方案:
一种复杂文字图片的随机样本生成方法,包括如图1所示的以下实现步骤:
(1-1)选取一定数量的待处理样本(具体的数量根据待处理图片所包含噪声的复杂度而定,比如说500个);其中所述待处理样本图片从待识别图片集中选取,包含待识别样本图片的一般噪声特征和、或扭曲特征。本发明随机样本生成方法的目的是用于复杂文字识别;因此在进行样本分析时,选取的待处理图片也应该是具有待识别图片的一般特征,比如说待识别样本中包含点状背景噪声和线条噪声,那么选取的待处理图片中也应该包含这些特征,以便于在接下来步骤中来构建相应的模型。
进一步的,将目标样本图片中所包含的字符切分出来(在图片中切分字符的方法很多比如说可以采用投影法),将待处理图片中的字符串切分成仅包含单个字符的待处理子图片;便于在单个字符的基础上分析噪声模型和扭曲特征。
(1-2)对上述待处理子图片进行分析,选取与目标图片字符最相似的字体库(根据目标字符最接近的字体来选择字体库,字体库的选择可以依经验进行人工选择,也可以通过机器自动对比,通过机器自动对比时:通过分析各个字体库与目标图片中对应字符的特征,计算字体的相似度,选择相似度最高的字体,比如宋体);分析目标字符的字符集(字符集是指待识别目标所包含字符的类别;根据待识别图片中所包含字符的情况而定,比如说待处理图片中仅仅包含数字,那么只需要对应研究数字集“0、1、2、3、4、5、6、7、8、9”而不需要研究汉字集;当待识别图片中既包括字母又包括数字还包括汉字,比如说常见的车牌号识别,就需要对汉字、字母以及数字都进行研究;而且本发明所说的字符集是指待识别图片集中所包含的所有字符构成的集合,比如说待识别图片集中包含1000个汉字,那么只需要选择这1000个汉字作为进行处理的字符集)。
(1-3)分析待处理子图片的噪声情况和扭曲特征(如图2、图3、图4、图5及图6所示),在已选择字体库的标准字符的基础上构建噪声模型和扭曲模型。
所谓构建噪声模型是指将待处理子图片中所包含的各类噪声进行相应的归类,在归类的基础上对每类噪声分布情况和复杂程度进统计和计算,让这些参数模型化;复杂文学识别可能遇到的噪声种类很多,比如说背景噪声(背景噪声包括背景颜色、背景图案等,如图2至图6所示的图片中均包含点状背景噪声),线条噪声(比如说目前的很多网站登录使用的验证,为了防止机器识别而人为在验证码的汉字、数字或者字母图片上添加一些干扰识别的杂乱线条,如图6所示),污染物噪声,比如在车牌识别时字符表面上可能出现的被灰尘或者泥浆污染的情况。
所谓构建扭曲模型是指将待处理子图片中所包含的扭曲特性进行相应的归类,在分类的基础上对扭曲的程度和扭曲范围进行统计和计算,让扭曲参数模型化;待处理目标图片的其他扭曲特征包括旋转(如图3所示)、倾斜(如图4所示)、仿射变换(如图5所示)等。
(1-4)根据噪声模型和扭曲的复杂程度,选择一定的变化步长在已选择字体库标准字符的基础上生成大量的随机样本(随机样本生成的具体数量根据待处理图片的噪声和扭曲特征的复杂度以及所选神经网络的模型规模而定;当这些随机样本用于神经网络训练时成为第二训练样本)。
具体的,比如说步骤(3)中已分析出的噪声模型包括背景中的点状噪声、线条噪声;扭曲特征包括旋转,其中点状噪声的灰度值分布在10-90之间,线条噪声的长度分布在0-100,宽度在1-3之间,旋转度在-30°到30°之间,这样根据这些噪声模型和扭曲特征的复杂度可以在已选择字体库中的标准字的基础上,比如说针对汉字“文”,在已选择宋体字符“文”的基础上可随机生成的“文”的图片样本包括背景噪声灰度值为10、21、22.........90;线条噪声为长度为:0、1、2、3............100,宽度为1、2、3;旋转度在-30°、-29°、-28°......0°......28°、29°、30°等特征的组合;假定产生随机样本的尺寸为50*50像素大小,那么针对“文”可产生的随机样本个数为8050*50*100*3*60个(事实上旋转度用浮点数表示,可以选择步长值可以为浮点数,这样所可以产生的样本个数巨大,可满足各种复杂神经网络的训练需要);其他字符的随机样本生成与“文”类似;通过上述的随机样本生成器产生了大量可供神经网络训练的不需要进行人工标注的样本,相比于现有技术中通过大量人工标注训练样本的方式,本发明中的随机样本生成器通过机器自动生成的方法在极短的时间内生成了数量巨大的可供使用的样本,样本的标注效率极高,可靠性高,显著的节约了人工标注的成本;并且随机生成的样本可以包含各种不同幅度的噪声和扭曲特征,满足各种复杂文字识别的需要。
作为一种优选,实际工作中为了避免因构造点状背景噪声产生数量过大的随机样本;点状背景噪声产生方式为:通过计算待处理图片中点状噪声的平均灰度以及方差值,在构造点状噪声时,通过使用高斯采样的方式随机设置噪声的灰度值。
进一步的,待识别图片的表面具有污染物的时候,比如车牌上的泥浆点,泥浆点的表现为字体的表面具有类似椭圆状或者放射状的斑点,可以选择椭圆或者放射状形状的像素块,通过设置这些像素块的灰度值从而实现表面污染物噪声的构建。
进一步的,图片的扭曲特征如:平移、压缩、拉伸、旋转和扭曲都可以根据仿射变换来构建,仿射变换一般可用下列公式来进行表示: T = A · x y + B , 其中 x y 为为原像素点的位置向量,x为横坐标,y为纵坐标, A = a 00 a 01 a 10 a 11 2 × 2 为系数矩阵,T为仿射变换后的对应像素点的位置向量; B = b 00 b 10 2 × 1 为常数向量;上述公式还可以写成:T=M·[x,y,1]T,M仿射变化系数矩阵, M = a 00 a 01 b 00 a 10 a 11 b 10 2 × 3 . 具体的,平移变化的情况:在系数矩阵为单位矩阵的情况下,加上常数向量就可实现;缩放变化的系数矩阵为对角矩阵分别调整x和y坐标的缩放倍数;而旋转变换的系数矩阵 A = cos θ sin θ - sin θ cos θ 2 × 2 和常数向量 ( 1 - cos θ ) * c . x - sin θ * c . y sin θ * c . x + ( 1 - cos θ ) * c . y , 其中c是旋转的中心点(c.x为中心的横坐标值,c.y为中心的纵坐标值),θ是旋转的角度;而且通过步骤(1-3)中对待处理图片中扭曲程度和模式统计分析,也可以计算出对应系数矩阵的取值范围,这样在进行扭曲样本构建时,通过在所述取值范围内,随机选取相关参数来设置系数矩阵,将该系数矩阵乘以标准字符的位置向量,就可以得到不同扭曲程度的随机样本。
进一步的,可以根据待处理样本的特点,仅仅选取字符的某一部分进行仿射变换,这样所产生的对应随机样本仅仅在字符中的对应区域具有扭曲特征。
进一步的,生成随机样本时,诸如背景噪声、线条噪声、污染物噪声等为可加噪声,即可以通过将字符与噪声进行叠加形成完整的样本图片。扭曲特征可对具有噪声的字符图片进行整体处理;也可以仅对字符进行扭曲处理,然后将扭曲的字符与其他噪声进行叠加形成样本图片。
进一步的,各类噪声和扭曲特征都可以组合出现。这样可以产生出数量庞大的各类随机样本。
进一步的,可以将所述随机样本生成方法所产生的训练样本用于深度神经网络的训练中,仅仅人工标注少量样本(第一训练样本),将所述人工标注的少量第一训练样本和上述随机样本生成器所产生的大量随机样本(第二训练样本)混合成为第三训练样本集;并将所述第三训练样本集输入到深度神经网络中,通过深度神经网络的学习来识别各种噪声和扭曲特征。
将待识别的目标图片中的字符串按照经过上述“复杂文字图片的随机样本生成器”中所述步骤(1-1)的切分方式切分成仅包含单个字符的待识别子图片,并将切分后的待识别字符图片按照对应的顺序输入到已经训练好的深度神经网络中,经过深度神经网络的识别在输出层输出相应的识别结果,实现步骤和实现过程分别如图7、图8所示。
具体的实现方法包含如图7所示的以下步骤:
(2-1)选取一定数量的目标测试样本(具体选取的样本数量根据待识别图像的噪声复杂程度和选定的神经网络的模型大小而定,比如说1000张);进行人工标注。并将标注好的样本集划分为开发样本集和第一训练样本集(比如说将标注样本集中30%的样本作为开发样本,70%的样本作为第一训练样本)。
(2-2)根据上述步骤(1-1)至(1-4)的随机样本生成方法生成大量的包含各种噪声和扭曲特征的第二训练样本(一般说来,第二训练样本数量S与第一训练样本数量F的比值S/F满足下列关系:100<(S/F)<10000;第二训练样本具体的数量根据深度神经网络的模型规模而定,比如说10000张,20000张,或者1000000张)。
(2-3)将第一训练样本集和第二训练样本集混合成为第三训练样本集,并将上所述第三训练样本集输入到待训练的深度神经网络中,训练所述深度神经网络。将第一训练样本集和第二训练样本集混合成第三训练样本集的好处在于可以防止神经网络根据第一训练样本集和第二训练样本集分别训练而出现过拟合问题,使得训练的结果朝着更加合理的方向进行。
(2-4)将待识别的目标图片中的字符串图片切分出来,并将字符串图片中的字符切分成仅包含单个字符的待识别子图片,并将切分后的待识别字符图片按照对应的顺序输入到已经训练好的所述深度神经网络中。
(2-5)经过所述深度神经网络的识别,在输出层输出与待识别目标图片对应的识别结果。

Claims (10)

1.一种用于复杂文字识别的随机样本产生方法,其特征在于,包含以下实现步骤:
(1-1)选取一定数量的待处理样本图片,将所述样本图片中所的字符串切分成各个仅包含单个字符的待处理子图片;
(1-2)对上述待处理子图片进行分析,选取与待处理子图片字符最相似的字体库;
(1-3)分析待处理子图片的噪声情况和扭曲特征,构建相应的噪声模型和,或扭曲模型;
(1-4)根据噪音和扭曲的复杂程度,选择一定的变化步长在已选择字体库标准字符的基础上生成随机样本。
2.如权利要求1所述的用于复杂文字识别的随机样本产生方法,其特征在于,所述步骤(1-1)中所述待处理样本图片在待识别图片样本集中选取。
3.如权利要求2所述的用于复杂文字识别的随机样本产生方法,其特征在于,所述待处理样本图片包含待识别样本图片的噪声特征和,或扭曲特征。
4.如权利要求3所述的用于复杂文字识别的随机样本产生方法,其特征在于,所生成的随机样本中的噪声包括:点状背景噪声、图案背景噪声和,或线条噪声;所生成的随机样本中的扭曲特征包括:由仿射变换引起的平移、压缩、拉伸、旋转和,或扭曲。
5.如权利要求4所述的用于复杂文字识别的随机样本产生方法,其特征在于,所述步骤(1-2)中仅选择与待识别字符对应的字符集。
6.如权利要求5所述的用于复杂文字识别的随机样本产生方法,其特征在于,所述步骤(1-4)中点状背景噪声产生方式为:通过计算待处理图片中点状噪声的平均灰度以及方差分布,通过使用高斯采样的方式随机设置噪声点的灰度值。
7.如权利要求5所述的用于复杂文字识别的随机样本产生方法,其特征在于,所述步骤(1-4)中平移、压缩、拉伸、旋转和扭曲特征根据仿射变换来构建。
8.如权利要求7所述的用于复杂文字识别的随机样本产生方法,其特征在于,通过步骤(1-3)中对待处理图片中各扭曲模式对应的扭曲程度统计分析,计算出对应系数矩阵相关参数的取值范围;所述步骤(1-4)中进行扭曲样本构建时,通过在取值范围内,随机选取相关参数来设置系数矩阵。
9.如权利要求8所述的用于复杂文字识别的随机样本产生方法,其特征在于,根据待处理样本的特点,仅选取字符的一部分进行仿射变换。
10.如权利要求1至9之一所述的用于复杂文字识别的随机样本产生方法,其特征在于,将所述方法所产生的训练样本用于深度神经网络的训练。
CN201510323798.8A 2015-06-12 2015-06-12 一种用于复杂文字识别的随机样本产生方法 Active CN104899571B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510323798.8A CN104899571B (zh) 2015-06-12 2015-06-12 一种用于复杂文字识别的随机样本产生方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510323798.8A CN104899571B (zh) 2015-06-12 2015-06-12 一种用于复杂文字识别的随机样本产生方法

Publications (2)

Publication Number Publication Date
CN104899571A true CN104899571A (zh) 2015-09-09
CN104899571B CN104899571B (zh) 2018-12-04

Family

ID=54032225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510323798.8A Active CN104899571B (zh) 2015-06-12 2015-06-12 一种用于复杂文字识别的随机样本产生方法

Country Status (1)

Country Link
CN (1) CN104899571B (zh)

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106408038A (zh) * 2016-09-09 2017-02-15 华南理工大学 一种基于卷积神经网络模型的旋转汉字识别方法
CN106408039A (zh) * 2016-09-14 2017-02-15 华南理工大学 一种基于形变方法进行数据扩展的脱机手写汉字识别方法
CN106709486A (zh) * 2016-11-11 2017-05-24 南京理工大学 基于深度卷积神经网络的自动车牌识别方法
CN107274345A (zh) * 2017-06-07 2017-10-20 众安信息技术服务有限公司 一种中文打印字符图像合成方法及装置
CN107679533A (zh) * 2017-09-27 2018-02-09 北京小米移动软件有限公司 文字识别方法及装置
CN108229470A (zh) * 2017-12-22 2018-06-29 北京市商汤科技开发有限公司 文字图像处理方法、装置、设备及存储介质
CN108303747A (zh) * 2017-01-12 2018-07-20 清华大学 检查设备和检测枪支的方法
CN108470366A (zh) * 2018-03-28 2018-08-31 同方威视技术股份有限公司 模拟图像生成方法和装置以及计算机可读存储介质
CN108573253A (zh) * 2017-03-13 2018-09-25 北京君正集成电路股份有限公司 车牌字符二值图的生成方法
CN108596167A (zh) * 2018-04-19 2018-09-28 上海亿锎智能科技有限公司 一种变长光学字符文字快速识别系统及方法、模型
CN108665010A (zh) * 2018-05-12 2018-10-16 新疆大学 一种联机手写维吾尔文单词数据增强方法
CN109308475A (zh) * 2018-07-26 2019-02-05 北京百悟科技有限公司 一种字体识别方法及装置
CN109697442A (zh) * 2017-10-20 2019-04-30 阿里巴巴集团控股有限公司 一种字符识别模型的训练方法和装置
CN109933969A (zh) * 2017-12-15 2019-06-25 腾讯科技(深圳)有限公司 验证码识别方法、装置、电子设备及可读存储介质
CN109993169A (zh) * 2019-04-11 2019-07-09 山东浪潮云信息技术有限公司 一种基于端到端的字符型验证码识别方法
CN110334657A (zh) * 2019-07-08 2019-10-15 创新奇智(北京)科技有限公司 一种鱼眼畸变图像的训练样本生成方法、系统及电子设备
CN110414519A (zh) * 2019-06-27 2019-11-05 众安信息技术服务有限公司 一种图片文字的识别方法及其识别装置
CN110490191A (zh) * 2019-07-16 2019-11-22 北京百度网讯科技有限公司 端到端模型的训练方法与系统、及中文识别方法与系统
CN110689001A (zh) * 2018-07-05 2020-01-14 山东华软金盾软件股份有限公司 一种生成复杂环境下车牌训练样本的方法
CN110807823A (zh) * 2019-11-13 2020-02-18 四川大学 一种点阵字符打印效果的图像仿真生成方法
CN111027345A (zh) * 2018-10-09 2020-04-17 北京金山办公软件股份有限公司 一种字体识别方法及装置
WO2020088338A1 (zh) * 2018-10-30 2020-05-07 杭州海康威视数字技术股份有限公司 一种建立识别模型的方法及装置
CN111325106A (zh) * 2020-01-22 2020-06-23 京东数字科技控股有限公司 生成训练数据的方法及装置
CN111382743A (zh) * 2018-12-28 2020-07-07 上海大学 基于数据增强和数据生成的车牌字符识别方法
CN111523541A (zh) * 2020-04-21 2020-08-11 上海云从汇临人工智能科技有限公司 一种基于ocr的数据生成方法、系统、设备及介质
CN112396047A (zh) * 2020-10-30 2021-02-23 北京文思海辉金信软件有限公司 训练样本生成方法、装置、计算机设备和存储介质
CN112446368A (zh) * 2020-10-20 2021-03-05 中电金信软件有限公司 票据图像处理、模型训练方法、装置和计算机设备
CN112508000A (zh) * 2020-11-26 2021-03-16 上海展湾信息科技有限公司 一种用于ocr图像识别模型训练数据生成的方法及设备
CN112686243A (zh) * 2020-12-29 2021-04-20 平安普惠企业管理有限公司 智能识别图片文字的方法、装置、计算机设备及存储介质
CN112926563A (zh) * 2021-02-23 2021-06-08 辽宁科技大学 一种钢卷喷印标记故障诊断系统
CN113392772A (zh) * 2021-06-17 2021-09-14 南开大学 一种面向文字识别的文字图像收缩变形增强方法
TWI744283B (zh) * 2016-02-29 2021-11-01 香港商阿里巴巴集團服務有限公司 一種單詞的分割方法和裝置
CN115830599A (zh) * 2023-02-08 2023-03-21 成都数联云算科技有限公司 工业字符识别方法、模型训练方法、装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030123732A1 (en) * 1998-06-04 2003-07-03 Keiichi Miyazaki Optical character reading method and system for a document with ruled lines and its application
CN1606028A (zh) * 2004-11-12 2005-04-13 清华大学 基于阿拉伯字符集的印刷体字符识别方法
CN1916942A (zh) * 2005-08-18 2007-02-21 北大方正集团有限公司 一种基于字体预测的字符识别方法
CN103927534A (zh) * 2014-04-26 2014-07-16 无锡信捷电气股份有限公司 一种基于卷积神经网络的喷码字符在线视觉检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030123732A1 (en) * 1998-06-04 2003-07-03 Keiichi Miyazaki Optical character reading method and system for a document with ruled lines and its application
CN1606028A (zh) * 2004-11-12 2005-04-13 清华大学 基于阿拉伯字符集的印刷体字符识别方法
CN1916942A (zh) * 2005-08-18 2007-02-21 北大方正集团有限公司 一种基于字体预测的字符识别方法
CN103927534A (zh) * 2014-04-26 2014-07-16 无锡信捷电气股份有限公司 一种基于卷积神经网络的喷码字符在线视觉检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高学 等: "基于CNN和随机弹性形变的相似手写汉字识别", 《华南理工大学学报(自然科学版)》 *

Cited By (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI744283B (zh) * 2016-02-29 2021-11-01 香港商阿里巴巴集團服務有限公司 一種單詞的分割方法和裝置
CN106408038A (zh) * 2016-09-09 2017-02-15 华南理工大学 一种基于卷积神经网络模型的旋转汉字识别方法
CN106408039A (zh) * 2016-09-14 2017-02-15 华南理工大学 一种基于形变方法进行数据扩展的脱机手写汉字识别方法
CN106709486A (zh) * 2016-11-11 2017-05-24 南京理工大学 基于深度卷积神经网络的自动车牌识别方法
CN108303747A (zh) * 2017-01-12 2018-07-20 清华大学 检查设备和检测枪支的方法
CN108303747B (zh) * 2017-01-12 2023-03-07 清华大学 检查设备和检测枪支的方法
CN108573253B (zh) * 2017-03-13 2021-09-07 北京君正集成电路股份有限公司 车牌字符二值图的生成方法
CN108573253A (zh) * 2017-03-13 2018-09-25 北京君正集成电路股份有限公司 车牌字符二值图的生成方法
CN107274345A (zh) * 2017-06-07 2017-10-20 众安信息技术服务有限公司 一种中文打印字符图像合成方法及装置
WO2018223994A1 (zh) * 2017-06-07 2018-12-13 众安信息技术服务有限公司 中文打印字符图像合成方法及装置
CN109313794A (zh) * 2017-06-07 2019-02-05 众安信息技术服务有限公司 中文打印字符图像合成方法及装置
CN107679533A (zh) * 2017-09-27 2018-02-09 北京小米移动软件有限公司 文字识别方法及装置
CN109697442A (zh) * 2017-10-20 2019-04-30 阿里巴巴集团控股有限公司 一种字符识别模型的训练方法和装置
CN109697442B (zh) * 2017-10-20 2023-04-07 阿里巴巴集团控股有限公司 一种字符识别模型的训练方法和装置
CN109933969A (zh) * 2017-12-15 2019-06-25 腾讯科技(深圳)有限公司 验证码识别方法、装置、电子设备及可读存储介质
CN109933969B (zh) * 2017-12-15 2021-05-07 腾讯科技(深圳)有限公司 验证码识别方法、装置、电子设备及可读存储介质
CN108229470B (zh) * 2017-12-22 2022-04-01 北京市商汤科技开发有限公司 文字图像处理方法、装置、设备及存储介质
US11275961B2 (en) 2017-12-22 2022-03-15 Beijing Sensetime Technology Development Co., Ltd. Character image processing method and apparatus, device, and storage medium
CN108229470A (zh) * 2017-12-22 2018-06-29 北京市商汤科技开发有限公司 文字图像处理方法、装置、设备及存储介质
CN108470366A (zh) * 2018-03-28 2018-08-31 同方威视技术股份有限公司 模拟图像生成方法和装置以及计算机可读存储介质
CN108470366B (zh) * 2018-03-28 2020-10-16 同方威视技术股份有限公司 模拟图像生成方法和装置以及计算机可读存储介质
CN108596167B (zh) * 2018-04-19 2020-08-21 上海亿锎智能科技有限公司 一种变长光学字符文字快速识别系统及方法、装置
CN108596167A (zh) * 2018-04-19 2018-09-28 上海亿锎智能科技有限公司 一种变长光学字符文字快速识别系统及方法、模型
CN108665010B (zh) * 2018-05-12 2022-01-04 新疆大学 一种联机手写维吾尔文单词数据增强方法
CN108665010A (zh) * 2018-05-12 2018-10-16 新疆大学 一种联机手写维吾尔文单词数据增强方法
CN110689001A (zh) * 2018-07-05 2020-01-14 山东华软金盾软件股份有限公司 一种生成复杂环境下车牌训练样本的方法
CN110689001B (zh) * 2018-07-05 2023-06-20 山东华软金盾软件股份有限公司 一种生成复杂环境下车牌训练样本的方法
CN109308475A (zh) * 2018-07-26 2019-02-05 北京百悟科技有限公司 一种字体识别方法及装置
CN111027345A (zh) * 2018-10-09 2020-04-17 北京金山办公软件股份有限公司 一种字体识别方法及装置
WO2020088338A1 (zh) * 2018-10-30 2020-05-07 杭州海康威视数字技术股份有限公司 一种建立识别模型的方法及装置
CN111382743A (zh) * 2018-12-28 2020-07-07 上海大学 基于数据增强和数据生成的车牌字符识别方法
CN111382743B (zh) * 2018-12-28 2023-05-26 上海大学 基于数据增强和数据生成的车牌字符识别方法
CN109993169A (zh) * 2019-04-11 2019-07-09 山东浪潮云信息技术有限公司 一种基于端到端的字符型验证码识别方法
CN110414519A (zh) * 2019-06-27 2019-11-05 众安信息技术服务有限公司 一种图片文字的识别方法及其识别装置
CN110334657B (zh) * 2019-07-08 2020-08-25 创新奇智(北京)科技有限公司 一种鱼眼畸变图像的训练样本生成方法、系统及电子设备
CN110334657A (zh) * 2019-07-08 2019-10-15 创新奇智(北京)科技有限公司 一种鱼眼畸变图像的训练样本生成方法、系统及电子设备
CN110490191A (zh) * 2019-07-16 2019-11-22 北京百度网讯科技有限公司 端到端模型的训练方法与系统、及中文识别方法与系统
CN110490191B (zh) * 2019-07-16 2022-03-04 北京百度网讯科技有限公司 端到端模型的训练方法与系统、及中文识别方法与系统
CN110807823A (zh) * 2019-11-13 2020-02-18 四川大学 一种点阵字符打印效果的图像仿真生成方法
CN111325106A (zh) * 2020-01-22 2020-06-23 京东数字科技控股有限公司 生成训练数据的方法及装置
CN111325106B (zh) * 2020-01-22 2023-11-03 京东科技控股股份有限公司 生成训练数据的方法及装置
CN111523541A (zh) * 2020-04-21 2020-08-11 上海云从汇临人工智能科技有限公司 一种基于ocr的数据生成方法、系统、设备及介质
CN112446368A (zh) * 2020-10-20 2021-03-05 中电金信软件有限公司 票据图像处理、模型训练方法、装置和计算机设备
CN112396047A (zh) * 2020-10-30 2021-02-23 北京文思海辉金信软件有限公司 训练样本生成方法、装置、计算机设备和存储介质
CN112396047B (zh) * 2020-10-30 2022-03-08 中电金信软件有限公司 训练样本生成方法、装置、计算机设备和存储介质
CN112508000A (zh) * 2020-11-26 2021-03-16 上海展湾信息科技有限公司 一种用于ocr图像识别模型训练数据生成的方法及设备
CN112508000B (zh) * 2020-11-26 2023-04-07 上海展湾信息科技有限公司 一种用于ocr图像识别模型训练数据生成的方法及设备
CN112686243A (zh) * 2020-12-29 2021-04-20 平安普惠企业管理有限公司 智能识别图片文字的方法、装置、计算机设备及存储介质
CN112926563A (zh) * 2021-02-23 2021-06-08 辽宁科技大学 一种钢卷喷印标记故障诊断系统
CN112926563B (zh) * 2021-02-23 2024-01-02 辽宁科技大学 一种钢卷喷印标记故障诊断系统
CN113392772B (zh) * 2021-06-17 2022-04-19 南开大学 一种面向文字识别的文字图像收缩变形增强方法
CN113392772A (zh) * 2021-06-17 2021-09-14 南开大学 一种面向文字识别的文字图像收缩变形增强方法
CN115830599A (zh) * 2023-02-08 2023-03-21 成都数联云算科技有限公司 工业字符识别方法、模型训练方法、装置、设备和介质

Also Published As

Publication number Publication date
CN104899571B (zh) 2018-12-04

Similar Documents

Publication Publication Date Title
CN104899571A (zh) 一种用于复杂文字识别的随机样本产生方法
CN104966097B (zh) 一种基于深度学习的复杂文字识别方法
CN110443293B (zh) 基于双判别生成对抗网络文本重构的零样本图像分类方法
CN103761531B (zh) 基于形状轮廓特征的稀疏编码车牌字符识别方法
CN109684803B (zh) 基于手势滑动的人机验证方法
Gebhardt et al. Document authentication using printing technique features and unsupervised anomaly detection
CN107992764B (zh) 一种敏感网页识别与检测方法及装置
CN111027443B (zh) 一种基于多任务深度学习的票据文本检测方法
CN103093240A (zh) 书法字识别方法
CN112907598B (zh) 一种基于注意力cnn文档证件类图像篡改检测方法
CN109241383A (zh) 一种基于深度学习的网页类型智能识别方法及系统
Hallale et al. Twelve directional feature extraction for handwritten English character recognition
CN110457996B (zh) 基于vgg-11卷积神经网络的视频运动对象篡改取证方法
CN1128423C (zh) 基于纹理分析的字体和笔迹识别方法
CN111260645A (zh) 基于分块分类深度学习的篡改图像检测方法及系统
CN108133211B (zh) 一种基于移动终端视觉图像的检测配电柜的方法
Chadha et al. License plate recognition system using OpenCV & PyTesseract
CN112164040B (zh) 基于半监督深度学习算法的钢铁表面缺陷识别方法
Darma et al. Segmentation of balinese script on lontar manuscripts using projection profile
CN117237736A (zh) 一种基于机器视觉和深度学习的大曲质量检测方法
CN116863217A (zh) 一种野外露头岩石图像岩性识别方法
CN109829887B (zh) 一种基于深度神经网络的图像质量评估方法
CN104077604B (zh) 一种文本内容无关的褶皱中文手写体鉴别方法
CN110472078B (zh) 一种钻头身份信息录入到钻井数据库的方法
CN113657373A (zh) 一种文书自动编目方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 610041 Tianfu Avenue Middle Section, Chengdu High-tech Zone, Sichuan Province, 199, Building 1, Unit 21, Building 1-6

Patentee after: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

Address before: 610041, Block B, Heaton International Plaza, 666 Tianfu Avenue, Chengdu High-tech Zone, Sichuan Province, 1005

Patentee before: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

CP02 Change in the address of a patent holder
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Random sample generation method for recognition of complex character

Effective date of registration: 20200608

Granted publication date: 20181204

Pledgee: The Agricultural Bank of Chengdu branch of Limited by Share Ltd. Chinese Sichuan

Pledgor: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

Registration number: Y2020980002850

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20200701

Granted publication date: 20181204

Pledgee: The Agricultural Bank of Chengdu branch of Limited by Share Ltd. Chinese Sichuan

Pledgor: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

Registration number: Y2020980002850

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Random sample generation method for recognition of complex character

Effective date of registration: 20200722

Granted publication date: 20181204

Pledgee: The Agricultural Bank of Chengdu branch of Limited by Share Ltd. Chinese Sichuan

Pledgor: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

Registration number: Y2020980004255

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20210812

Granted publication date: 20181204

Pledgee: The Agricultural Bank of Chengdu branch of Limited by Share Ltd. Chinese Sichuan

Pledgor: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

Registration number: Y2020980004255

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A random sample generation method for complex character recognition

Effective date of registration: 20210818

Granted publication date: 20181204

Pledgee: The Agricultural Bank of Chengdu branch of Limited by Share Ltd. Chinese Sichuan

Pledgor: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

Registration number: Y2021980007811

PE01 Entry into force of the registration of the contract for pledge of patent right
PP01 Preservation of patent right

Effective date of registration: 20240428

Granted publication date: 20181204

PP01 Preservation of patent right