CN111950548B - 一种引入字库文字图像进行深度模板匹配的汉字识别方法 - Google Patents

一种引入字库文字图像进行深度模板匹配的汉字识别方法 Download PDF

Info

Publication number
CN111950548B
CN111950548B CN202010793534.XA CN202010793534A CN111950548B CN 111950548 B CN111950548 B CN 111950548B CN 202010793534 A CN202010793534 A CN 202010793534A CN 111950548 B CN111950548 B CN 111950548B
Authority
CN
China
Prior art keywords
character
word
image
images
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010793534.XA
Other languages
English (en)
Other versions
CN111950548A (zh
Inventor
张重生
史先进
王斌
陶月锋
门艺
王慧慧
牛钦
曹爽
纵瑞星
姜维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University
Original Assignee
Henan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University filed Critical Henan University
Priority to CN202010793534.XA priority Critical patent/CN111950548B/zh
Publication of CN111950548A publication Critical patent/CN111950548A/zh
Application granted granted Critical
Publication of CN111950548B publication Critical patent/CN111950548B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种引入字库文字图像进行深度模板匹配的汉字识别方法,包括以下步骤:A:对汉字矢量字库中每个文字,得到字库文字图像及对应的文字内容;B:对汉字矢量字库中每个文字,获取该文字对应的真实字符图像集合;C:设置训练模型及参数;D:随机挑选K组文字内容相同或不同的字库文字图像和真实字符图像的组合,利用双通道孪生神经网络对模型进行训练并得到更新后的文字识别模型;E:创建键值对数据结构并读取拟预测真实字符图像;F:利用更新后的文字识别模型,将拟预测真实字符图像与汉字矢量字库中的所有字库文字图像比对并输出结果。本发明极大地降低了汉字识别的难度,提高了汉字识别的准确率。

Description

一种引入字库文字图像进行深度模板匹配的汉字识别方法
技术领域
本发明涉及一种图像中汉字的识别方法,尤其涉及一种引入字库文字图像进行深度模板匹配的汉字识别方法。
背景技术
文字识别技术已有数十年的发展历程,早期的文字识别技术主要针对扫描文档图像,这种扫描文档图像的特点是背景简单,文字通常排列成行,噪声较少,光线受控且均匀。最常见的扫描文档图像是书籍的扫描文档图像,其特点是白纸黑字,背景一般为白色,文字通常为黑色,而且文字排列成行,每行中相邻文字之间的间距较为均匀,且两个相邻行之间的行间距也较为均匀。对于普通难度的扫描文档图像,已有技术或软件能够取得99%左右或以上的准确率。
自然场景图像中的文字识别是文字识别领域最近十几年的研究热点。自然场景图像指的是利用数码相机、手机等成像设备在户外或室内等各种场景下拍摄的图像。包含文字的自然场景图像称为自然场景文本图像。自然场景文本图像的识别通常包括场景文本检测和场景文本识别两个阶段。场景文本检测是指在场景文本图像中定位到每个文本行,或每个单词,或每个字符的所在位置和区域;场景文本识别通常是对定位到场景文本中的文字进行识别,输出对应的文字内容或由多个文字内容组成的字符串。
真实字符图像是指只包含一个文字的图像。一个真实字符图像可以从扫描文档或自然场景文本图像中,通过手工标注或计算机算法自动剪切得到。对每个文字,一般将其对应的所有真实字符图像归类到一个文件夹中,因此,以每个文字命名的文件夹中包含的均为该文字对应的所有真实字符图像。
现有研究中,针对拉丁文的真实字符图像的文字识别技术较多,而针对自然场景文本图像中的汉字真实字符图像的识别研究较少。对于真实字符图像中的拉丁文字符识别,人们通常简单地使用传统的卷积神经网络进行直接识别,如VGG16或ResNet-50神经网络,虽然也能取得一定的文字识别结果,但整体识别准确率不够理想。由于汉字的个数是拉丁文字母个数的数十倍,因此,包含汉字的真实字符图像的文字识别难度更大。
发明内容
本发明的目的是提供一种引入字库文字图像进行深度模板匹配的汉字识别方法,相较于现有技术中直接对真实字符图像进行深度学习识别的方法,能够极大地降低真实汉字真实字符图像的识别难度,提高汉字识别正确率。
本发明采用下述技术方案:
一种引入字库文字图像进行深度模板匹配的汉字识别方法,包括以下步骤:
A:对汉字矢量字库中每个文字,根据该文字的矢量图形,生成对应的文字图像,定义为字库文字图像,并保存该字库文字图像对应的文字内容;然后进入步骤B;
B:对汉字矢量字库中每个文字,获取该文字对应的真实字符图像集合;然后进入步骤C;
C:令batch表示一个能够存放K个元组的容器,初始时batch置空;令maxIter为最大迭代次数;model表示训练阶段得到的文字识别模型,初始时model置空;然后进入步骤D;
D:进行maxIter次循环,且在每次循环中,随机挑选K组文字内容相同或不同的字库文字图像和真实字符图像的组合,然后判断当前文字识别模型model是否为空;
若当前文字识别模型model为空,则利用双通道孪生神经网络,在当前容器batch中的数据上,从零开始训练模型,模型训练完成后,将该模型保存为更新后的文字识别模型model;若当前文字识别模型model非空,则利用双通道孪生神经网络,在当前容器batch中的数据上,更新已有文字识别模型model,并保存为更新后的文字识别模型model;
当每次循环结束后,将容器batch中的内容清空;当maxIter次循环全部结束后,最终得到更新后的文字识别模型model,用于预测输入的两幅图像中的文字内容相同的概率,然后进入步骤E;
E:创建一个键值对数据结构map,键值对数据结构map的键为文字内容cls,键值对数据结构map的值为对应的预测概率值prob;令测试集中的图像数量为m,进行m次循环;在每次循环中,首先从测试集中读取下一幅真实字符图像a,然后将map置空,进入步骤F;
F:对拟预测文字内容的真实字符图像a,依次将真实字符图像a与汉字矢量字库中的每个字库文字图像b组成二元组(a,b),并将二元组(a,b)送入步骤D中得到的更新后的文字识别模型model中,利用更新后的文字识别模型model得到真实字符图像a与字库文字图像b属于同一个文字内容的预测概率值prob;然后将字库文字图像b对应的文字内容cls及预测概率值prob的值存入键值对数据结构map中,即map[cls]=prob;当真实字符a与汉字矢量字库中的所有字库文字图像比对结束后,输出当前键值对数据结构map中预测概率值最大的前N个文字内容,作为真实字符图像a的最终文字识别结果。
所述的步骤A中,根据所选取的汉字矢量字库中每个文字的矢量图形,利用计算机程序,将对应文字的矢量图形打印到一幅背景透明的空白图像中,并保存为.png格式。
所述的汉字矢量字库为宋体汉字矢量字库。
所述的步骤B中,真实字符图像从真实图像或扫描文档中,通过手工标注或剪切得到的文字的图像。
所述的maxIter = 600000 ,K为32、64或128。
所述的步骤D包括以下具体步骤:
D1:当容器batch中的元组数量小于K时,从汉字矢量字库中的字库文字图像中随机挑选一幅字库文字图像t,并获取该字库文字图像t所对应的文字内容c;在{0,1}集合中随机选择一个数字r,若r =1,则从文字内容c所对应的真实字符图像集合中,随机挑选一幅真实字符图像s,并将三元组(t,s,1)保存到容器batch中,三元组中的t和s表示输入的两幅图像,0和1为两种可能的输出值, 1表示字库文字图像t和真实字符图像s的文字内容相同;如果r=0,则从除了文字内容c之外的其它所有文字内容的真实字符图像集合中,随机挑选一幅真实字符图像f,并将三元组(t,f,0)保存到容器batch中,三元组中的t和f表示输入的两幅图像,0和1为两种可能的输出值,0表示字库文字图像t和真实字符图像f中的文字内容不同;
重复上述步骤,直到容器batch中的元组数量等于K;然后进入步骤D2;
D2:判断当前文字识别模型model是否为空;若当前文字识别模型model为空,则利用双通道孪生神经网络,在当前容器batch中的数据上,从零开始训练模型,模型训练完成后,将该模型保存为更新后的文字识别模型model;若当前文字识别模型model非空,则利用双通道孪生神经网络,在当前容器batch中的数据上,更新已有文字识别模型model,并保存为更新后的文字识别模型model;然后进入步骤D3;
D3:当每次循环结束后,将容器batch中的内容清空;然后进入步骤D4;
D4:当maxIter次循环全部结束后,最终得到更新后的文字识别模型model,用于预测输入的两幅图像中的文字内容相同的概率,然后进入步骤E。
所述的步骤F中,N= 5。
本发明针对现有技术中基于直接识别汉字真实字符图像的难度较大,识别准确率较低的现状,通过引入汉字矢量字库中的文字图像,利用双通道孪生神经网络,将真实字符图像上的汉字识别问题,转换为利用双通道孪生神经网络的汉字真实字符图像与汉字字库文字图像的深度模板匹配,极大地降低了汉字识别的难度,提高了汉字识别的准确率。
附图说明
图1为本发明的流程示意图。
具体实施方式
以下结合附图和实施例对本发明作以详细的描述:
如图1所示,本发明所述的引入字库文字图像进行深度模板匹配的汉字识别方法,包括以下步骤:
A:对汉字矢量字库中每个文字,根据该文字的矢量图形,生成对应的文字图像,定义为字库文字图像,并保存该字库文字图像对应的文字内容;然后进入步骤B;
本发明中,汉字矢量字库可采用多种字体的汉字矢量字库,如使用宋体汉字矢量字库。根据所选取的汉字矢量字库中每个文字的矢量图形,利用计算机程序,将对应文字的矢量图形打印到一幅背景透明的空白图像中,并保存为.png格式。
B:对汉字矢量字库中每个文字,获取该文字对应的真实字符图像集合;然后进入步骤C;
真实字符图像是从真实图像或扫描文档中,通过手工标注或技术手段剪切得到的某个文字的图像,每个真实字符图像中有且仅有一个文字。将真实字符图像按照其对应的文字内容进行归类,以确保每个文字内容命名的文件夹下存放该文字所对应的所有的真实字符图像。 真实字符图像与通过汉字矢量字库得到的字库文字图像的主要区别是,真实字符图像背景复杂、光照不均且拍摄角度多变,而字库文字图像则是背景纯净,且组成每个字的所有笔画的像素值均相同,因此真实字符图像的文字识别难度较大,而字库文字图像中的文字识别难度较小。
C:令batch表示一个能够存放K个元组的容器,初始时batch置空;令maxIter为最大迭代次数;model表示训练阶段得到的文字识别模型,初始时model置空;然后进入步骤D;
其中,maxIter为超参数,可根据真实字符图像的总个数进行设定,如取值为600000。K为超参数,需要在实验过程中调参,可取值为32,64,128等值。
D:进行maxIter次循环,且在每次循环中,随机挑选K组文字内容相同或不同的字库文字图像和真实字符图像的组合,然后判断当前文字识别模型model是否为空;若当前文字识别模型model为空,则利用双通道孪生神经网络,在当前容器batch中的数据上,从零开始训练模型,模型训练完成后,将该模型保存为更新后的文字识别模型model;若当前文字识别模型model非空,则利用双通道孪生神经网络,在当前容器batch中的数据上,更新已有文字识别模型model,并保存为更新后的文字识别模型model;当每次循环结束后,将容器batch中的内容清空;当maxIter次循环全部结束后,最终得到更新后的文字识别模型model,用于预测输入的两幅图像中的文字内容相同的概率,然后进入步骤E;
本实施例中,所述的步骤D包括以下具体步骤:
D1:当容器batch中的元组数量小于K时,从汉字矢量字库中的字库文字图像中随机挑选一幅字库文字图像t,并获取该字库文字图像t所对应的文字内容c;在{0,1}集合中随机选择一个数字r,若r =1,则从文字内容c所对应的真实字符图像集合中,随机挑选一幅真实字符图像s,并将三元组(t,s,1)保存到容器batch中,三元组中的t和s表示输入的两幅图像,0和1为两种可能的输出值, 1表示字库文字图像t和真实字符图像s的文字内容相同;如果r=0,则从除了文字内容c之外的其它所有文字内容的真实字符图像集合中,随机挑选一幅真实字符图像f,并将三元组(t,f,0)保存到容器batch中,三元组中的t和f表示输入的两幅图像,0和1为两种可能的输出值,0表示字库文字图像t和真实字符图像f中的文字内容不同;重复上述步骤,直到容器batch中的元组数量等于K;然后进入步骤D2;
D2:判断当前文字识别模型model是否为空;若当前文字识别模型model为空,则利用双通道孪生神经网络,在当前容器batch中的数据上,从零开始训练模型,模型训练完成后,将该模型保存为更新后的文字识别模型model;若当前文字识别模型model非空,则利用双通道孪生神经网络,在当前容器batch中的数据上,更新已有文字识别模型model,并保存为更新后的文字识别模型model;然后进入步骤D3;
双通道孪生神经网络为现有神经网络,在此不再赘述。本发明中,使用双通道孪生神经网络(2-channel Siamesenetworks),将两幅图像合在一起,形成一幅双通道的图像,然后使用卷积神经网络对该双通道图像提取特征。双通道孪生神经网络的损失函数使用默认的对比损失函数(Contrastive loss)。
在训练阶段,输入到双通道孪生神经网络中的是两幅图像及对应的目标输出值,目标输出值的取值为0或1,1表示两幅图像中的文字内容相同,0表示两幅图像中的文字内容不同。双通道孪生神经网络通过神经网络的自学习,在输入的两幅图像和目标输出值之间建立一个深度神经网络模型,该模型表示的是输入的两幅图像与目标输出值之间的复杂非线性映射关系。
D3:当每次循环结束后,将容器batch中的内容清空;然后进入步骤D4;
D4:当maxIter次循环全部结束后,最终得到更新后的文字识别模型model,用于预测输入的两幅图像中的文字内容相同的概率,然后进入步骤E;
E:创建一个键值对数据结构map,键值对数据结构map的键为文字内容cls,键值对数据结构map的值为对应的预测概率值prob;令测试集中的图像数量为m,进行m次循环;在每次循环中,首先从测试集中读取下一幅真实字符图像a,然后将map置空,进入步骤F;其中,m为正整数;
F:对拟预测文字内容的真实字符图像a,依次将真实字符图像a与汉字矢量字库中的每个字库文字图像b组成二元组(a,b),并将二元组(a,b)送入步骤D中得到的更新后的文字识别模型model中,利用更新后的文字识别模型model得到真实字符图像a与字库文字图像b属于同一个文字内容的预测概率值prob;然后将字库文字图像b对应的文字内容cls及预测概率值prob的值存入键值对数据结构map中,即map[cls]=prob;当真实字符a与汉字矢量字库中的所有字库文字图像比对结束后,输出当前键值对数据结构map中预测概率值最大的前N个文字内容,作为真实字符图像a的最终文字识别结果,即真实字符图像a的文字内容。N的数值可根据具体识别需求设定,本实施例中,N为5,输出当前键值对数据结构map中预测概率值最大的前5个文字内容,作为真实字符图像a的最终文字识别结果。
步骤F中,利用通过双通道孪生神经网络训练得到的更新后的文字识别模型model,输入真实字符图像a与字库文字图像b,能够得到真实字符图像a与字库文字图像b中的文字属于同一类型的概率值大小,该概率值在[0,1]之间。该概率值越大,表示两幅图像中的文字属于同一类型的概率越大;该概率值等于1时,表示两幅图像中的文字完全相同,0表示完全不同。
本发明中,在训练阶段,输入到双通道孪生神经网络中的是两幅图像,和对应的输出目标值,输出目标值的取值为0或1,1表示两幅图像中的文字内容相同,0表示两幅图像中的文字内容不同。双通道孪生神经网络通过神经网络的自学习,在输入的两幅图像和输出目标值之间建立一个深度神经网络模型,该模型表示的是输入的两幅图像与输出目标值之间的复杂非线性映射关系。
在预测阶段,利用双通道孪生神经网络训练得到的模型model的输入是两幅图像,输出是两幅图像中文字内容相同的概率值,该概率值是[0,1]之间的一个小数,概率值越大,表明两幅图像的文字内容相同的概率越大。
本发明中,基于直接识别汉字真实字符图像的难度较大,识别准确率较低的现状,通过引入汉字矢量字库中的文字图像,利用双通道孪生神经网络,将真实字符图像上的汉字识别问题,转换为利用双通道孪生神经网络的真实汉字字符图像与汉字字库文字图像的深度模板匹配问题,极大地降低了汉字识别的难度,提高了汉字识别的准确率。

Claims (7)

1.一种引入字库文字图像进行深度模板匹配的汉字识别方法,其特征在于:包括以下步骤:
A:对汉字矢量字库中每个文字,根据该文字的矢量图形,生成对应的文字图像,定义为字库文字图像,并保存该字库文字图像对应的文字内容;然后进入步骤B;
B:对汉字矢量字库中每个文字,获取该文字对应的真实字符图像集合;然后进入步骤C;
C:令batch表示一个能够存放K个元组的容器,初始时batch置空;令maxIter为最大迭代次数;model表示训练阶段得到的文字识别模型,初始时model置空;然后进入步骤D;
D:进行maxIter次循环,且在每次循环中,随机挑选K组文字内容相同或不同的字库文字图像和真实字符图像的组合,然后判断当前文字识别模型model是否为空;
若当前文字识别模型model为空,则利用双通道孪生神经网络,在当前容器batch中的数据上,从零开始训练模型,模型训练完成后,将该模型保存为更新后的文字识别模型model;若当前文字识别模型model非空,则利用双通道孪生神经网络,在当前容器batch中的数据上,更新已有文字识别模型model,并保存为更新后的文字识别模型model;
当每次循环结束后,将容器batch中的内容清空;当maxIter次循环全部结束后,最终得到更新后的文字识别模型model,用于预测输入的两幅图像中的文字内容相同的概率,然后进入步骤E;
E:创建一个键值对数据结构map,键值对数据结构map的键为文字内容cls,键值对数据结构map的值为对应的预测概率值prob;令测试集中的图像数量为m,进行m次循环;在每次循环中,首先从测试集中读取下一幅真实字符图像a,然后将map置空,进入步骤F;
F:对拟预测文字内容的真实字符图像a,依次将真实字符图像a与汉字矢量字库中的每个字库文字图像b组成二元组(a,b),并将二元组(a,b)送入步骤D中得到的更新后的文字识别模型model中,利用更新后的文字识别模型model得到真实字符图像a与字库文字图像b属于同一个文字内容的预测概率值prob;然后将字库文字图像b对应的文字内容cls及预测概率值prob的值存入键值对数据结构map中,即map[cls]=prob;当真实字符a与汉字矢量字库中的所有字库文字图像比对结束后,输出当前键值对数据结构map中预测概率值最大的前N个文字内容,作为真实字符图像a的最终文字识别结果。
2.根据权利要求1所述的引入字库文字图像进行深度模板匹配的汉字识别方法,其特征在于:所述的步骤A中,根据所选取的汉字矢量字库中每个文字的矢量图形,利用计算机程序,将对应文字的矢量图形打印到一幅背景透明的空白图像中,并保存为.png格式。
3.根据权利要求1所述的引入字库文字图像进行深度模板匹配的汉字识别方法,其特征在于:所述的汉字矢量字库为宋体汉字矢量字库。
4.根据权利要求1所述的引入字库文字图像进行深度模板匹配的汉字识别方法,其特征在于:所述的步骤B中,真实字符图像从真实图像或扫描文档中,通过手工标注或剪切得到的文字的图像。
5.根据权利要求1所述的引入字库文字图像进行深度模板匹配的汉字识别方法,其特征在于:所述的maxIter = 600000 ,K为32、64或128。
6.根据权利要求1所述的引入字库文字图像进行深度模板匹配的汉字识别方法,其特征在于,所述的步骤D包括以下具体步骤:
D1:当容器batch中的元组数量小于K时,从汉字矢量字库中的字库文字图像中随机挑选一幅字库文字图像t,并获取该字库文字图像t所对应的文字内容c;在{0,1}集合中随机选择一个数字r,若r =1,则从文字内容c所对应的真实字符图像集合中,随机挑选一幅真实字符图像s,并将三元组(t,s,1)保存到容器batch中,三元组中的t和s表示输入的两幅图像,0和1为两种可能的输出值, 1表示字库文字图像t和真实字符图像s的文字内容相同;如果r=0,则从除了文字内容c之外的其它所有文字内容的真实字符图像集合中,随机挑选一幅真实字符图像f,并将三元组(t,f,0)保存到容器batch中,三元组中的t和f表示输入的两幅图像,0和1为两种可能的输出值,0表示字库文字图像t和真实字符图像f中的文字内容不同;
重复上述步骤,直到容器batch中的元组数量等于K;然后进入步骤D2;
D2:判断当前文字识别模型model是否为空;若当前文字识别模型model为空,则利用双通道孪生神经网络,在当前容器batch中的数据上,从零开始训练模型,模型训练完成后,将该模型保存为更新后的文字识别模型model;若当前文字识别模型model非空,则利用双通道孪生神经网络,在当前容器batch中的数据上,更新已有文字识别模型model,并保存为更新后的文字识别模型model;然后进入步骤D3;
D3:当每次循环结束后,将容器batch中的内容清空;然后进入步骤D4;
D4:当maxIter次循环全部结束后,最终得到更新后的文字识别模型model,用于预测输入的两幅图像中的文字内容相同的概率,然后进入步骤E。
7.根据权利要求1所述的引入字库文字图像进行深度模板匹配的汉字识别方法,其特征在于:所述的步骤F中,N=5。
CN202010793534.XA 2020-08-10 2020-08-10 一种引入字库文字图像进行深度模板匹配的汉字识别方法 Active CN111950548B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010793534.XA CN111950548B (zh) 2020-08-10 2020-08-10 一种引入字库文字图像进行深度模板匹配的汉字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010793534.XA CN111950548B (zh) 2020-08-10 2020-08-10 一种引入字库文字图像进行深度模板匹配的汉字识别方法

Publications (2)

Publication Number Publication Date
CN111950548A CN111950548A (zh) 2020-11-17
CN111950548B true CN111950548B (zh) 2023-07-28

Family

ID=73332671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010793534.XA Active CN111950548B (zh) 2020-08-10 2020-08-10 一种引入字库文字图像进行深度模板匹配的汉字识别方法

Country Status (1)

Country Link
CN (1) CN111950548B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205448A (zh) * 2015-08-11 2015-12-30 中国科学院自动化研究所 基于深度学习的文字识别模型训练方法和识别方法
CN108710866A (zh) * 2018-06-04 2018-10-26 平安科技(深圳)有限公司 汉字模型训练方法、汉字识别方法、装置、设备及介质
CN110533057A (zh) * 2019-04-29 2019-12-03 浙江科技学院 一种单样本与少样本场景下的汉字验证码识别方法
WO2019232847A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 手写模型训练方法、手写字识别方法、装置、设备及介质
CN111179251A (zh) * 2019-12-30 2020-05-19 上海交通大学 基于孪生神经网络利用模板比对的缺陷检测系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190294975A1 (en) * 2018-03-21 2019-09-26 Swim.IT Inc Predicting using digital twins

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205448A (zh) * 2015-08-11 2015-12-30 中国科学院自动化研究所 基于深度学习的文字识别模型训练方法和识别方法
CN108710866A (zh) * 2018-06-04 2018-10-26 平安科技(深圳)有限公司 汉字模型训练方法、汉字识别方法、装置、设备及介质
WO2019232847A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 手写模型训练方法、手写字识别方法、装置、设备及介质
CN110533057A (zh) * 2019-04-29 2019-12-03 浙江科技学院 一种单样本与少样本场景下的汉字验证码识别方法
CN111179251A (zh) * 2019-12-30 2020-05-19 上海交通大学 基于孪生神经网络利用模板比对的缺陷检测系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于字符编码与卷积神经网络的汉字识别;刘正琼;丁力;凌琳;李学飞;周文霞;;电子测量与仪器学报(第02期);全文 *
基于神经网络的小样本手写汉字识别;周添一;赵磊;;山东理工大学学报(自然科学版)(第03期);全文 *

Also Published As

Publication number Publication date
CN111950548A (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN108804397B (zh) 一种基于少量目标字体的汉字字体转换生成的方法
CN110223292B (zh) 图像评估方法、装置及计算机可读存储介质
CN105678293A (zh) 一种基于cnn-rnn的复杂图像字序列识别方法
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN105678292A (zh) 基于卷积及递归神经网络的复杂光学文字序列识别系统
CN108734168A (zh) 一种手写数字的识别方法
CN111627080B (zh) 基于卷积神经与条件生成对抗性网络的灰度图像上色方法
CN110114776A (zh) 使用全卷积神经网络的字符识别的系统和方法
CN112926565B (zh) 图片文本的识别方法、系统、设备和存储介质
CN112069900A (zh) 基于卷积神经网络的票据文字识别方法及系统
CN111079511A (zh) 基于深度学习的文档自动归类及光学字符识别方法及系统
CN113989484A (zh) 古籍的文字识别方法、装置、计算机设备及存储介质
CN115908613A (zh) 基于人工智能的ai模型生成方法、系统及存储介质
CN115147862A (zh) 底栖动物自动识别方法、系统、电子设备和可读存储介质
CN115512357A (zh) 一种基于部件拆分的零样本汉字识别方法
CN110321893A (zh) 一种聚焦增强的场景文本识别网络
CN111950548B (zh) 一种引入字库文字图像进行深度模板匹配的汉字识别方法
CN109508712A (zh) 一种基于图像的汉语文字识别方法
US11341758B1 (en) Image processing method and system
CN111179361B (zh) 一种基于深度学习的黑白影像自动着色方法
CN114358199A (zh) 轻量级字符识别模型的训练方法、电子设备及存储介质
CN112329389B (zh) 一种基于语义分割与禁忌搜索的汉字笔画自动提取方法
KR20220097255A (ko) 이미지 생성 방법 및 장치
CN113362088A (zh) 一种基于crnn的电信行业智能客服图像识别的方法及其系统
CN113901913A (zh) 一种用于古籍文档图像二值化的卷积网络

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant