CN110866501A - 一种训练数据生成方法、数据识别方法和计算机存储介质 - Google Patents

一种训练数据生成方法、数据识别方法和计算机存储介质 Download PDF

Info

Publication number
CN110866501A
CN110866501A CN201911131782.1A CN201911131782A CN110866501A CN 110866501 A CN110866501 A CN 110866501A CN 201911131782 A CN201911131782 A CN 201911131782A CN 110866501 A CN110866501 A CN 110866501A
Authority
CN
China
Prior art keywords
image
data
digital image
library
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911131782.1A
Other languages
English (en)
Other versions
CN110866501B (zh
Inventor
胡雅伦
熊博颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN201911131782.1A priority Critical patent/CN110866501B/zh
Publication of CN110866501A publication Critical patent/CN110866501A/zh
Application granted granted Critical
Publication of CN110866501B publication Critical patent/CN110866501B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/36Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开一种训练数据生成方法,获取真实数据图像,所述真实数据图像包括手写数字和打印字体,所述手写数字和所述打印字体混合组成真实数据图像;切分所述真实数据图像中的手写数字图像,对所述切分的手写数字图像进行二值化处理后划分到对应数字的手写数字图像库中,对于所述打印字体在公开字体库匹配打印字体库;根据所述真实数据图像中的数据格式获取所述对应数字的手写数字图像库中对应的手写数字图像和所述打印字体库中的打印字体生成训练数据。根据本方法,通过制作更加真实的手写数字图像库,和选择打印自字体库,使生成真实度更高的训练数据,提高最终识别模型的准确率。

Description

一种训练数据生成方法、数据识别方法和计算机存储介质
技术领域
本发明涉及人工智能领域,尤其是涉及一种训练数据生成方法、数据识别方法和计算机存储介质。
背景技术
目前相关文字识别技术中,识别打印字体的技术已经十分成熟,识别手写字体的技术也在逐渐发展中,其中,大多数文字识别技术都基于深度学习。利用深度学习方法进行文字识别时,需要大量高质量的训练数据才能保证识别结果的高准确率。在真实数据不够充足的场景中,需要利用程序模仿真实数据自动批量生成训练数据以满足训练要求。但对于手写数字与打印字体混合的情况,因为缺乏足够接近真实数据的高质量的训练数据,识别准确率较低。
基于深度学习的文字识别中,训练数据的获取方式主要取决于真实数据是否充足。在真实数据充足的情况下,通常会有专业的标注人员进行人工标注,即利用专门的标注工具在真实数据图片上截取需要识别的内容保存为切片,并录入切片的文字内容,这种切片与对应的文字内容将作为训练数据。在真实数据不充足的情况下,通常使用程序自动批量生成大部分训练数据的样本,即指定字体、每个样本的文字长度后,由计算机程序仿照真实数据生成样本,最后将这些样本与少量经过人工标注的真实数据混合,共同组成训练数据。
对于手写数字与打印字体混合的文字识别的情况,在真实数据不充足时,相关的使用程序批量生成数据技术存在如下缺陷,首先,相关方法生成的手写数字样本使用的是公开的手写数字图像库,但这种手写字体的种类、样式比较有限,且与真实的手写样本差距较大;其次,大部分训练数据由纯打印字体样本与纯手写字体样本组成,而没有模拟出打印字体与手写数字混合样本,也会导致训练数据与真实数据差距较大。
综上,在手写数字与打印字体混合的文字识别中,相关的数据生成方法提供的训练数据与真实数据差距较大,利用这种数据训练出来的模型识别准确率很低。
发明内容
为了改善相关技术中的不足,本发明致力于提供一种训练数据的生成方法,包括,获取真实数据图像,所述真实数据图像包括手写数字和打印字体,所述手写数字和所述打印字体混合组成真实数据图像;建立手写手写数字图像库,切分所述真实数据图像中的手写数字图像,对所述切分的手写数字图像进行二值化处理后划分到对应数字的手写数字图像库中;选择打印字体库,对于所述打印字体在公开字体库匹配打印字体库;根据所述真实数据图像中的数据格式获取所述对应数字的手写数字图像库中对应的手写数字图像和所述打印字体库中的打印字体生成训练数据。
进一步的,在根据所述真实数据图像中的数据格式获取所述对应数字的手写数字图像库中对应的手写数字图像和所述打印字体库中的打印字体利用计算程序生成训练数据前,仿照所述真实数据图像中的数据格式利用计算机程序生成N条字符串作为语料库,其中N为大于1的整数。
进一步的,根据所述真实数据图像中的数据格式获取所述对应数字的手写数字图像库中对应的手写数字图像和所述打印字体库中的打印字体生成训练数据包括,读取语料库中的所述字符串中的字符,如果所述字符串中的字符为数字则从所述数字对应的手写数字图像库中随机选取一个图像替换所述读取的字符,如果所述字符串中的字符为非数字则根据所述读取的字符从所述公开字体库中选择相同的字符替换所述读取的字符,生成一条与真实数据图像中数据格式相同的训练数据,然后从所述语料库读取下一个字符串,重复以上步骤,生成N条件训练数据。
进一步的,根据所述真实数据图像中的数据格式获取所述对应数字的手写数字图像库中对应的手写数字图像和所述打印字体库中的打印字体利用计算程序生成训练数据包括,读取语料库中的一条所述字符串中的字符,其中从所述字符串的首字符或者尾字符依次读取字符,如果所述字符串中的字符为数字则从所述数字对应的手写数字图像库中随机选取一个图像替换所述读取的字符,如果所述字符串中的字符为非数字则根据所述读取的字符从所述公开字体库中选择相同的字符替换所述读取的字符,生成一条与真实数据图像中数据格式相同的训练数据,然后从所述语料库读取下一个字符串,重复以上步骤,生成N条件训练数据。
进一步的,根据所述真实数据图像中的数据格式获取所述对应数字的手写数字图像库中对应的手写数字图像和所述打印字体库中的打印字体生成训练数据包括,确定字符在字符串中的位置,根据所述位置建立索引,将非数字字符的索引以数组形式保存;从所述语料库中读取一条字符串,从所述打印字体库中选取一种打印字体,按照预定次序读取所述字符串中的字符,如果读取的所述字符为数字则从所述数字对应的手写数字图像库中随机选取一个图像替换所述读取的字符,如果读取所述字符的索引存在于所述数组中则根据所述索引选择一种打印字体对应的打印字体字符替换所述读取的字符,生成一条训练数据,然后从所述语料库读取下一个字符串,重复以上步骤,生成N条件训练数据。
进一步的,切分所述真实数据图像中的手写数字图像包括,将所述手写数字图像切分为单个数字。
进一步的,切分所述真实数据图像中的手写数字图像包括,将所述手写数字图像依次切分为至少2个数字。
进一步的,所述真实数据图像的数据格式为日期格式的数据。
进一步的,对所述切分的手写数字图像进行二值化处理后等比例调整至相同尺寸,然后划分到对应数字的手写数字图像库中。
进一步的,在生成训练数据时对所述打印字体库中的打印字体调用图像绘制接口将其绘制成图像。
本发明的另一方面提供一种数据识别方法,获取包含日期的图像数据,所述图像数据包括手写书写打印字体,识别模型提取所述图像数据的中的日期数据,其中所述识别模型通过预设的训练数据训练,其中,所述训练数据采用任一项所述的方法训练得到。
本发明的再一个方面提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,其中所述计算机程序被处理器执行时实现上述任一项所述的方法。
根据本发明实施的数据训练方法,通过采集少量真实数据图像中的手写数字,制作比公开手写数字图像库更加真实的手写数字库,使生成的手写数字更加接近真实样本;另一方面,通过匹配共公开字体库中的打印字体,生成手写数字与打印字体混合的样本,更加接近真实样本数据分布方式,从而提高了最终识别模型的准确率。
附图说明
图1为本发明真实数据图像示意图
图2为本发明生成训练数据的基本示意图
图3为本发明生成的训练数据的示意图
图4为本发明利用语料库生成训练数据的示意图
图5为本发明利用索引生成训练数据的示意图
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。此外,本实施例内容部分和附图中的步骤并不作先后顺序限定,在本发明的精神内部分步骤可以同步或者调换次序实施。
实施例1:
以下对本实施方式的技术方案进行示意性说明,根据本实施方式的训练数据的生成方法,包括,获取真实数据图像,如图1所示,真实数据图像包括手写数字和打印字体,所述手写数字和所述打印字体混合组成真实数据图像;手写字体与打印字体可以按照预定方式进行混合,可以是预定数量的数字与预定数量的打印字体进行混合,打印字体可以为公开字体库中的任何字体,该打印字体的内容可以是打印文字或者打印字符,例如,年月日等文字或者符号“/”、“.”等符号。对于打印字体的文字类别不做具体限定,可以是中文、英文、日文、韩文、法文、德文等文字的打印字体,手写数字为阿拉伯数字。
建立手写数字图像库,切分所述真实数据图像中的手写数字图像和打印字体图像,对所述切分的手写数字图像进行二值化处理后划分到对应数字的手写数字图像库中,二值化处理是指将图像中像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果的过程,经过图像二值化处理可以使图像中数据量大为减少,从而能凸显出目标的轮廓,实现精确的数字识别。数字图像二值化处理后根据二值化得到的数字建立对应的手写数字库,将二值化的图像存在该手写数字库中,例如对图像中的“2019”数字图像进行切分,切除出数字“2”对应的图像,然后对其进行二值化处理,识别出该图像对应的数字为“2”,则建立数字“2”对应的数字库,该库的名称为数字“2”,将二值化化后为2的数字图像全部存入名称为2的数字图像库中。对于所述打印字体在公开字体库匹配打印字体库,公开字体库为任何一种可以被计算机识别的字体库,对于一条训练数据,其选取的打印字体来自于同一个公开的打印字体库,各条训练数据的打印字体可以选自不同的字体库。匹配打印字体是指在匹配到的打印字体库中找到与识别的打印字符相同的字符。
如图2所示,根据所述真实数据图像中的数据格式获取所述对应数字的手写数字图像库中对应的手写数字图像和所述打印字体库中的打印字体生成训练数据。当切分出的第一个为手写数字时将其二值化后若识别出其为数字2,则在名称为2的手写数字图像库中选择一个图像作为训练数据的第一位数字,依次对各位置的字符进行切分和二值化,如果切分出的图像经二值化识别为非数字字符,则在公开字体库中选择该库中的对应字符。生成与真实数据格式相同的训练数据。
如图4所示,为了能够生成大量的训练数据,本实施例在根据所述真实数据图像中的数据格式获取所述对应数字的手写数字图像库中对应的手写数字图像和所述打印字体库中的打印字体利用计算程序生成训练数据前,仿照所述真实数据图像中的数据格式利用计算机程序生成N条字符串作为语料库,其中N为大于1的整数。语料库的中字符串均是打印字字体,其数据格式与真实数据格式相同,例如真实数据格式是2019年01月11日,其中“2019”、“01”、“11”是手写字体,“年、月、日”为打印字体,则仿照该真实数据格式生成的预料库中的字符串“2019年01月11日”是纯文本格式。语料库中的各字符串是计算机程序按照真实数据的格式要求随机生成的,生成的数字可以不必然与真实数字完全相同,可以是随机的数字,只要格式满足真实数据格式要求即可。以日期格式为例,如果真实数据是年份为“XXXX年XX月XX日”,则计算机程序也是按照年份为4位数字,月份为2位数字,日期为2位数字的格式生成,计算机程随机生成数据时年份需要满足年份的格式要求,月份需要满足的月份的格式要求,具体日期份需要满足的具体日期的格式要求,例如月份是1至12月,日期是1-28、29、30、31等。比如语料库为一个txt文件,其内容为:
2019年10月22日
1999年01月01日
1876年04月12日
1587年12月08日
2005年02月16日
……
随机生成的语料库中字符串条目N可以是需要的训练数据条目总数,例如,需要10万条训练数据则语料库中随机生成10万条字符串。本申请的数据格式并不限定文字类别,例如可以是英文或者其他语言文字。
为了能够利用较少的真实图像数据更快的生成大量与真实数据接近或者相同的训练数据,如图2所示,为本实施方式生成训练数据的过程。根据所述真实数据图像中的数据格式获取所述对应数字的手写数字图像库中对应的手写数字图像和所述打印字体库中的打印字体生成训练数据包括,读取语料库中的所述字符串中的字符,如果所述字符串中的某个字符为数字则从所述数字对应的手写数字图像库中随机选取一个图像替换所述读取的字符,如果所述字符串中的读取的该字符为非数字则根据所述读取的字符从所述公开字体库中选择相同的字符替换所述读取的字符,生成一条与真实数据图像中数据格式相同的训练数据,然后从所述语料库读取下一个字符串,重复以上步骤,生成N条件训练数据。
为了更清楚说明本实施方式的技术方案,以更具体的示例进行阐释,例如读取语料库中的第一条字符串,该字符串可以是中文格式的字符串也可以是英文或者其他文字类型的字符串,例如该字符串是“1984年06月23日”,当读取的字符串中某个位置的字符为1时,则从手写数字图像库号为1的手写数字图像库中随机选择一个图像作为训练数据的对应位置的字符图像,当读取的字符为9时,则从手写数字图像库号为9的手写数字图像库中随机选择一个图像作为训练数据的对应位置的字符图像,当读取的字符为8时,则从手写数字图像库号为8的手写数字图像库中随机选择一个图像作为训练数据的对应位置的字符图像,当读取的字符为4时,则从手写数字图像库号为4的手写数字图像库中随机选择一个图像作为训练数据的对应位置的字符图像,当读取的字符为“年”时,如果选择的公开打印字体库为黑体字库,则从黑体字库中选择出该黑体字“年”作为训练数据的对应位置的字符图像,当读取的字符为0时,则从手写数字图像库号为0的手写数字图像库中随机选择一个图像作为训练数据的对应位置的字符图像,当读取的字符为6时,则从手写数字图像库号为6的手写数字图像库中随机选择一个图像作为训练数据的对应位置的字符图像,当读取的字符为“月”时,由于第一个打印字体选择的打印字体库为黑体字库,则从黑体字库中选择出该黑体字“月”作为训练数据的对应位置的字符图像,当读取的字符为2时,则从手写数字图像库号为2的手写数字图像库中随机选择一个图像作为训练数据的对应位置的字符图像,当读取的字符为3时,则从手写数字图像库号为3的手写数字图像库中随机选择一个图像作为训练数据的对应位置的字符图像,当读取的字符为“日”时,由于第一打印字体选择的打印字体库为黑体字库,则从黑体字库中选择出该黑体字“日”作为训练数据的对应位置的字符图像。当该字符串中的所有字符全部读取完时,则生成一条与真实数据图像的格式相同的训练数据例如“1984年06月23日”,如图3所示,该训练数据以图像形式生成。然后从所述语料库读取下一个字符串,重复以上步骤,生成N条件训练数据。对于上述打印字符图像的生成调用图像处理接口按字体进行绘制。
经过发明人深入研究发现,语料库字符串中各个字符的读取方式影响数据生成的时间,为了减小字符串数据读取时间,本实施例选择在语料库中选取字符串时按照顺序或者倒序的方式逐条选择字符串,对于选择的每条字符串读取字符时本实施优选的从字符串的首字符顺序依次读取或者从字符串的尾字符倒序依次读取。如此可以防止遍历字符串中的各字符,节省读取时间,从而提高字符串的选择和字符串中字符的读取速度。
根据本示例生成训练数据的方法,其中手写数字是关系训练数据真实性的决定因素之一,对于真实样本数据的切分方式与训练数据的真实性高度相关,为了得到真实性高的训练数据,本实施方式切分所述真实数据图像中的手写数字图像时将所述手写数字图像切分为单个数字。以单个数字为数据最小组成单元可以最大程度的接近真实手写数据,能够得到真实性更高的训练数据。本发明人研究发现,对真实数据切分的大小与训练数据的生成速度成正比例关系,与训练数据真实成反比例关系,即对真实数据切分长度越长训练数据生成速度越快,训练数据的真实性越低。因此为了平衡训练数据生成时间和训练数据真实性的问题,本实施例中切分所述真实数据图像中的手写数字图像时可以将所述手写数字图像依次切分为至少2个数字。例如当真实数据图像中的数据格式为日期格式的数据“1984年06月23日”时,为了更快速的生成训练数据同时兼顾生成的训练数据的真实度,将上述真实数据图像中的手写数字图像按2个字符长度依次进行切分,切分后的字符图像切片为“19”、“84”、“”06、“23”。对于切分成2个字符的手写数字图像切片二值化后识别的数字“19”、“84”、“06”06、“23”作为对应手写数字图像库的编号,将切分的对应数字的图像切片存入对应库号的手写数字图像库中,例如“19”号手写数字图像库中全部存入内容为19的数字图像切片,“84”号手写数字图像库中全部存入内容为84的数字图像切片,“06”号手写数字图像库中全部存入内容为06的数字图像切片,“23”号手写数字图像库中全部存入内容为23的数字图像切片。对应在语料库中读取字符串中的数字字符时也依次读取两位,根据读取的数字选择相应的数字图像库号从该库中随机选取一个图像切片替换读取的数字。对于非数字字符按照如上单个字符读取并处理。
为了使得生成训练诗数据在外观上更接近真实数据,本实施方式在对所述切分的手写数字图像进行二值化处理后等比例调整至相同尺寸,然后划分到对应数字的手写数字图像库中。优选的等比例调整至于打印字体库中的字体相同或者接近的尺寸,或者调整至于打印字体预设比例的尺寸。如此生成的训练数据在外观上更接近于真实数据。此外,为了使得训练得到的数据在外观上与真实数据图像完全匹配,选择数字图像库中的数字和公开打印字库中的对应打印字体生成训练数据时,调用图像绘制接口对要填入对应位置的打印字体进行绘制,使得绘制的图像的大小和外观与真实数据趋于相同。
根据本实施的数据训练方法,通过采集少量真实数据图像中的手写数字,制作比公开手写数字图像库更加真实的手写数字库,使生成的手写数字更加接近真实样本;另一方面,通过匹配共公开字体库中的打印字体,生成手写数字与打印字体混合的样本,更加接近真实样本数据分布方式。
实施例2
如图5所示,本实施例与实施例1不同在于对打印字体的读取方式上,本实施例根据所述真实数据图像中的数据格式获取所述对应数字的手写数字图像库中对应的手写数字图像和所述打印字体库中的打印字体生成训练数据包括,确定字符在字符串中的位置,根据所述位置建立索引,将非数字字符的索引以数组形式保存;索引可为一系列编号,该编号从0开始表示字符在字符串中所处的位置序号,例如年、月、日在“2019年11月22日”中的编号为4、7、10,那么年月日打印字体索引对应就是4,7,10,在代码中索引是以数组的形式存储,例如[4,7,10]
从所述语料库中读取一条字符串,从所述打印字体库中选取一种打印字体,根据所述索引在对应位置填入选取的打印字符,如果所述字符串中的字符为数字则从所述数字对应的手写数字图像库中随机选取一个图像替换所述读取的字符,生成一条与真实数据图像中数据格式相同的训练数据。
根据索引生成训练数据时还可以逐个以预定顺序读取字符串中的字符,预定循序可以是从首字符开始也可以是从尾字符开始,还可以是先读取非数字字符再读取数字字符,或者先读取数字字符再读取非数字字符。循环的索引从0开始,每次读取到下一个字符时递增1。例如对于“2019年11月22日”,读取到“2”时,当前循环索引为0,读取到“0”时,当前循环索引为1,以此类推,读取到“日”时,当前循环索引为10。在逐个读取字符串中的字符过程中,判断当前字符在循环中的索引是否为打印字符的索引,如果是,则选取好打印字体后填入打印字符;如果不是,则从手写数字图像库中读取并替换。例如对于“2019年10月22日”这个字符串中的字符,其中打印字体的索引为[4,7,10]:当读取到字符“2”时,当前循环索引为0,0不在打印字体索引[4,7,10]内,故判定当前字符为数字,在2对应的手写数字图像库中选择一个图像;读取到“0”时,当前循环索引为1,1不在打印字体索引[4,7,10]内,故判定当前字符为数字,在0对应的手写数字图像库中选择一个图像填入索引1代表的在字符串的位置;依次类推;当读取到字符“年”时,当前循环索引为4,4在打印字体索引[4,7,10]内,故当前字符为打印字体,选取好打印字体后填入打印字符;同理当读取到“日”时,当前循环索引为10,10在打印字体索引[4,7,10]内,故当前字符为打印字体,选取好打印字体后填入打印字符,生成一条训练数据。然后从所述语料库读取下一个字符串,重复以上步骤,生成N条件训练数据。
根据本实施方式的数据生成方法,一方面通过采集少量真实数据的手写数字,制作比公开手写字体库更加真实的定制化手写数字图像库,使生成的手写数字更加接近真实样本;另一方面,通过获取打印字体索引的方式,生成手写数字与打印字体混合的样本,更加接近真实样本的字体分布方式。
实施例3
本发明的另一方面提供一种数据识别方法,获取包含日期的图像数据,所述图像数据包括手写书写打印字体,识别模型提取所述图像数据的中的日期数据,其中所述识别模型通过预设的训练数据训练,其中,所述训练数据采用任一项所述的方法训练得到。
实施例4
本发明的另一个方面提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,其中所述计算机程序被处理器执行时实现上述任一项所述的方法。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同限定以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种训练数据的生成方法,其特征在于,获取真实数据图像,所述真实数据图像包括手写数字和打印字体,所述手写数字和所述打印字体混合组成真实数据图像;建立手写数字图像库,切分所述真实数据图像中的手写数字图像,对所述切分的手写数字图像进行二值化处理后划分到对应数字的手写数字图像库中;选择公开打印字体库,对于所述打印字体在公开字体库匹配打印字体库;根据所述真实数据图像中的数据格式获取所述对应数字的手写数字图像库中对应的手写数字图像和所述打印字体库中的打印字体生成训练数据。
2.根据权利要求1所述的训练数据生成方法,其特征在于:在根据所述真实数据图像中的数据格式获取所述对应数字的手写数字图像库中对应的手写数字图像和所述打印字体库中的打印字体生成训练数据前,仿照所述真实数据图像中的数据格式利用计算机程序生成N条字符串作为语料库,其中N为大于1的整数。
3.根据权利要求2所述的训练数据生成方法,其特征在于:根据所述真实数据图像中的数据格式获取所述对应数字的手写数字图像库中对应的手写数字图像和所述打印字体库中的打印字体生成训练数据包括,读取语料库中的所述字符串中的字符,如果所述字符串中的字符为数字则从所述数字对应的手写数字图像库中随机选取一个图像替换所述读取的字符,如果所述字符串中的字符为非数字则根据所述读取的字符从所述公开字体库中选择相同的字符替换所述读取的字符,生成一条与真实数据图像中数据格式相同的训练数据,然后从所述语料库读取下一个字符串,重复以上步骤,生成N条件训练数据。
4.根据权利要求2所述的训练数据生成方法,其特征在于:根据所述真实数据图像中的数据格式获取所述对应数字的手写数字图像库中对应的手写数字图像和所述打印字体库中的打印字体生成训练数据包括,读取语料库中的一条所述字符串中的字符,其中从所述字符串的首字符或者尾字符依次读取字符,如果所述字符串中的字符为数字则从所述数字对应的手写数字图像库中随机选取一个图像替换所述读取的字符,如果所述字符串中的字符为非数字则根据所述读取的字符从所述公开字体库中选择相同的字符替换所述读取的字符,生成一条与真实数据图像中数据格式相同的训练数据,然后从所述语料库读取下一个字符串,重复以上步骤,生成N条件训练数据。
5.根据权利要求2所述的训练数据生成方法,其特征在于:根据所述真实数据图像中的数据格式获取所述对应数字的手写数字图像库中对应的手写数字图像和所述打印字体库中的打印字体生成训练数据包括,确定字符在字符串中的位置,根据所述位置建立索引,将非数字字符的索引以数组形式保存;从所述语料库中读取一条字符串,从所述打印字体库中选取一种打印字体,按照预定次序读取所述字符串中的字符,如果读取的所述字符为数字则从所述数字对应的手写数字图像库中随机选取一个图像替换所述读取的字符,如果读取所述字符的索引存在于所述数组中则根据所述索引选择一种打印字体对应的打印字体字符替换所述读取的字符,生成一条训练数据,然后从所述语料库读取下一个字符串,重复以上步骤,生成N条件训练数据。
6.根据权利要求1至5任一项所述的训练数据生成方法,其特征在于:切分所述真实数据图像中的手写数字图像包括,将所述手写数字图像切分为单个数字。
7.根据权利要求1至5任一项所述的训练数据生成方法,其特征在于:切分所述真实数据图像中的手写数字图像包括,将所述手写数字图像依次切分为至少2个数字。
8.根据权利要求1至5任一项所述的训练数据生成方法,其特征在于:所述真实数据图像的数据格式为日期格式的数据。
9.根据权利要求1至5任一项所述的训练数据生成方法,其特征在于:对所述切分的手写数字图像进行二值化处理后等比例调整至相同尺寸,然后划分到对应数字的手写数字图像库中。
10.根据权利要求1至5任一项所述的训练数据生成方法,其特征在于:在生成训练数据时对所述打印字体库中的打印字体调用图像绘制接口将其绘制成图像。
11.一种数据识别方法,获取包含日期的图像数据,所述图像数据包括手写字体和打印字体,识别模型提取所述图像数据的中的日期数据,其中所述识别模型通过预设的训练数据训练获得,其特征在于,所述预设的训练数据采用权利要求1至10任一项所述的方法训练得到。
12.一种计算机存储介质,所述计算机存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至11任一项所述的方法。
CN201911131782.1A 2019-11-19 2019-11-19 一种训练数据生成方法、数据识别方法和计算机存储介质 Active CN110866501B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911131782.1A CN110866501B (zh) 2019-11-19 2019-11-19 一种训练数据生成方法、数据识别方法和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911131782.1A CN110866501B (zh) 2019-11-19 2019-11-19 一种训练数据生成方法、数据识别方法和计算机存储介质

Publications (2)

Publication Number Publication Date
CN110866501A true CN110866501A (zh) 2020-03-06
CN110866501B CN110866501B (zh) 2022-04-29

Family

ID=69655055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911131782.1A Active CN110866501B (zh) 2019-11-19 2019-11-19 一种训练数据生成方法、数据识别方法和计算机存储介质

Country Status (1)

Country Link
CN (1) CN110866501B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340032A (zh) * 2020-03-16 2020-06-26 天津得迈科技有限公司 一种基于金融领域应用场景的字符识别方法
CN113052143A (zh) * 2021-04-26 2021-06-29 中国建设银行股份有限公司 手写数字生成方法和装置
CN113515919A (zh) * 2021-09-14 2021-10-19 北京江融信科技有限公司 一种生成中文TrueType字体的方法及系统
US20230004741A1 (en) * 2021-06-30 2023-01-05 Konica Minolta Business Solutions U.S.A., Inc. Handwriting recognition method and apparatus employing content aware and style aware data augmentation

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102496013A (zh) * 2011-11-11 2012-06-13 苏州大学 用于脱机手写汉字识别的汉字字符切分方法
WO2016209495A1 (en) * 2015-06-26 2016-12-29 Intel Corporation Substitution of handwritten text with a custom handwritten font
US20170076152A1 (en) * 2015-09-15 2017-03-16 Captricity, Inc. Determining a text string based on visual features of a shred
CN109522975A (zh) * 2018-09-18 2019-03-26 平安科技(深圳)有限公司 手写样本生成方法、装置、计算机设备及存储介质
CN109634961A (zh) * 2018-12-05 2019-04-16 杭州大拿科技股份有限公司 一种试卷样本生成方法、装置、电子设备和存储介质
CN110321788A (zh) * 2019-05-17 2019-10-11 平安科技(深圳)有限公司 训练数据处理方法、装置、设备及计算机可读存储介质
CN110378310A (zh) * 2019-07-25 2019-10-25 南京红松信息技术有限公司 一种基于答案库的手写样本集的自动生成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102496013A (zh) * 2011-11-11 2012-06-13 苏州大学 用于脱机手写汉字识别的汉字字符切分方法
WO2016209495A1 (en) * 2015-06-26 2016-12-29 Intel Corporation Substitution of handwritten text with a custom handwritten font
US20170076152A1 (en) * 2015-09-15 2017-03-16 Captricity, Inc. Determining a text string based on visual features of a shred
CN109522975A (zh) * 2018-09-18 2019-03-26 平安科技(深圳)有限公司 手写样本生成方法、装置、计算机设备及存储介质
CN109634961A (zh) * 2018-12-05 2019-04-16 杭州大拿科技股份有限公司 一种试卷样本生成方法、装置、电子设备和存储介质
CN110321788A (zh) * 2019-05-17 2019-10-11 平安科技(深圳)有限公司 训练数据处理方法、装置、设备及计算机可读存储介质
CN110378310A (zh) * 2019-07-25 2019-10-25 南京红松信息技术有限公司 一种基于答案库的手写样本集的自动生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HUAIGU CAO,ROHIT PRASAD,PREM NATARAJAN: "《Handwritten and Typewritten Text Identification and Recognition Using Hidden Markov Models》", 《2011 INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION》 *
毕佳晶,李敏,郑蕊蕊,许爽,贺建军,黄荻: "《面向满文字符识别的训练数据增广方法研究》", 《大连民族大学学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340032A (zh) * 2020-03-16 2020-06-26 天津得迈科技有限公司 一种基于金融领域应用场景的字符识别方法
CN113052143A (zh) * 2021-04-26 2021-06-29 中国建设银行股份有限公司 手写数字生成方法和装置
US20230004741A1 (en) * 2021-06-30 2023-01-05 Konica Minolta Business Solutions U.S.A., Inc. Handwriting recognition method and apparatus employing content aware and style aware data augmentation
JP7449332B2 (ja) 2021-06-30 2024-03-13 コニカ ミノルタ ビジネス ソリューションズ ユー.エス.エー., インコーポレイテッド コンテンツアウェアおよびスタイルアウェアデータを増強することによる筆跡認識方法および装置
CN113515919A (zh) * 2021-09-14 2021-10-19 北京江融信科技有限公司 一种生成中文TrueType字体的方法及系统

Also Published As

Publication number Publication date
CN110866501B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN110866501B (zh) 一种训练数据生成方法、数据识别方法和计算机存储介质
CN111291629A (zh) 图像中文本的识别方法、装置、计算机设备及计算机存储介质
CN110705503B (zh) 生成目录结构化信息的方法和装置
CN111627088A (zh) 一种用于数学试卷图像识别的样本自动生成方法
CN109190630A (zh) 字符识别方法
CN113360608B (zh) 人机结合的中文作文批改系统和方法
CN105117740A (zh) 字体识别方法及装置
CN107748744A (zh) 一种勾勒框知识库的建立方法及装置
CN114119949A (zh) 一种增强文本合成图像的生成方法和系统
CN115034200A (zh) 图纸信息提取方法、装置、电子设备及存储介质
CN113158977A (zh) 改进FANnet生成网络的图像字符编辑方法
CN111357015B (zh) 文本转换方法、装置、计算机设备和计算机可读存储介质
CN109508712A (zh) 一种基于图像的汉语文字识别方法
JP6715487B1 (ja) メール分類装置、メール分類方法、およびコンピュータプログラム
CN110765107B (zh) 基于数字化编码的题型识别方法及其系统
CN112488114A (zh) 一种图片合成方法及装置、文字识别系统
CN111241329A (zh) 基于图像检索的古文字考释方法和装置
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
CN115457555A (zh) 通用场景文字识别数据的自动生成方法及系统
CN113516041A (zh) 一种藏文古籍文档图像版面分割、识别方法及系统
CN113127866B (zh) 恶意代码的特征码提取方法、装置和计算机设备
CN112836467A (zh) 一种图像处理方法及装置
Chen The image retrieval algorithm based on color feature
CN113569528A (zh) 一种自动版面文档标注生成方法
CN113127863A (zh) 恶意代码的检测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220919

Address after: 25 Financial Street, Xicheng District, Beijing 100033

Patentee after: CHINA CONSTRUCTION BANK Corp.

Address before: 25 Financial Street, Xicheng District, Beijing 100033

Patentee before: CHINA CONSTRUCTION BANK Corp.

Patentee before: Jianxin Financial Science and Technology Co.,Ltd.

TR01 Transfer of patent right