CN116486419A - 一种基于孪生卷积神经网络的书法字识别方法 - Google Patents
一种基于孪生卷积神经网络的书法字识别方法 Download PDFInfo
- Publication number
- CN116486419A CN116486419A CN202210042795.7A CN202210042795A CN116486419A CN 116486419 A CN116486419 A CN 116486419A CN 202210042795 A CN202210042795 A CN 202210042795A CN 116486419 A CN116486419 A CN 116486419A
- Authority
- CN
- China
- Prior art keywords
- neural network
- convolutional neural
- word
- feature vector
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 33
- 238000011176 pooling Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 10
- 210000002569 neuron Anatomy 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 230000000877 morphologic effect Effects 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 7
- 238000010200 validation analysis Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 210000003169 central nervous system Anatomy 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- HDKLIZDXVUCLHQ-UHFFFAOYSA-N non-3-en-2-one Chemical compound CCCCCC=CC(C)=O HDKLIZDXVUCLHQ-UHFFFAOYSA-N 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 210000004243 sweat Anatomy 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/226—Character recognition characterised by the type of writing of cursive writing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于孪生卷积神经网络的书法字识别方法。该方法包括:获取待识别的书法字图片;将所述书法字图片输入经训练的孪生卷积神经网络模型,该孪生神经网络模型包含第一卷积神经网络和第二卷积神经网络,其中第一卷积神经网络输出对应的第一特征向量,第二卷积神经网络输出对应的第二特征向量;计算第一特征向量和第二特征向量之间的相似度;基于所述相似度结果预测书法字的类别。本发明能够通过少量甚至单一样本训练孪生卷积神经网络,降低了训练成本并显著提高了书法字的识别精确度。
Description
技术领域
本发明涉及书法字识别技术领域,更具体地,涉及一种基于孪生卷积神经网络的书法字识别方法。
背景技术
中国书法字的历史和丰富度广博又深远,而目前年轻一代对一些书法字还缺乏了解。例如,登高岳阳楼,行于楼东新碑廊,面对龙飞凤舞,气吞山河的古文隽字,只能徒然汗颜,这是因为难以识别出文字内容。如果可以通过机器快速进行识别,那么就可以克服阅读障碍。
书法字体通常可以分为“楷、草、行、隶、篆”五大类,不同字体间形态特征差异较大,对于没有经过系统学习的普通人可能难以辨认。市面上也存在此类需求的应用和软件,但准确率都不是很高。例如,手写的连笔“围”字,容易被判断成“国”字,其根本原因是现有的识别技术仅基于一种简单的特征比对,如一个“国”字,收录几十到几百张数据,用户端输入一个字的信息后,通过特征比对,寻找最相匹配的结果。这种方式要求极庞大的数据样本才能够提高准确率,而中国书法字的样本却十分少,所以这种识别方法准确率较低,并且成本过高。
在现有技术中,书法字识别的方案通常分为两类。一是不通过神经网络训练,而是收集样本建立大数据库,然后将待识别的文字在数据库中查找比对,取相似度最高的作为识别结果。二是通过神经网络进行学习,这种方法需要收集大量样本数据进行训练,选择表征相符合的结果,从而实现准确识别的效果。
对于不通过神经网络训练的方法,例如专利申请公布号CN103093240A(“书法字识别方法”)对书法字进行二值化、去噪和归一化处理后提取特征信息,如四个边界点位置、平均笔画穿越数、投影值、轮廓点等,然后,提取待识别书法字的特征信息,再进行形状匹配比较,给出识别结果,这种方法识别准确率较低。又如,专利申请公布号CN101785030A(“基于隐式马尔可夫模型的手写笔迹/书法生成”)用马尔可夫模型来生成手写字符。经训练的隐式马尔可夫模型可使用诸如最大后验技术、最大似然线性,这种方法同样存在识别准确率较低的问题。
对于通过神经网络进行训练的方法,需要大量数据作为支撑,但书法的数据集样本很小,且收集困难。据最新版新华字典的收录,约有超过11000的汉字,常用汉字为3500。每个字需要收集几十到几千个样本,已有的识别技术所需的时间成本高而准确率低。例如专利申请公布号CN110334782A(“多卷积层驱动的深度信念网络书法风格识别方法”)和专利申请公布号CN108764242A(“基于深层卷积神经网络的离线手写汉字体识别方法”)就无法在样本量小的情况下有效训练神经网络。而专利申请公布号CN108985348(“基于卷积神经网络的书法风格识别方法”)只能做到书法风格识别,不能做到书法字识别。
总之,现有的书法字识别方法准确率不高,这主要是因为,书法字形态多样,且书法作者个人发挥空间大,对于部分形态非标准的书法字样本,用传统特征提取的手动编程算法识别效果不理想;部分生僻字的样本量小,所以可用于机器学习的数据库体量小,导致传统基于深度学习的机器视觉算法训练效果不理想。
发明内容
本发明的目的是克服上述现有技术的缺陷,提供一种基于孪生卷积神经网络的书法字识别方法。该方法包括以下步骤:
获取待识别的书法字图片;
将所述书法字图片输入经训练的孪生卷积神经网络模型,该孪生神经网络模型包含第一卷积神经网络和第二卷积神经网络,其中第一卷积神经网络输出对应的第一特征向量,第二卷积神经网络输出对应的第二特征向量;
计算第一特征向量和第二特征向量之间的相似度;
基于所述相似度结果预测书法字的类别。
与现有技术相比,本发明的优点在于,能够通过少量甚至单一样本,完成学习(few-/one-shot learning),从而显著减少了神经网络训练的量并且不损失准确率,经训练的神经网络能够成功用于书法字识别。另外,传统基于卷积神经网络的深度学习方法无法识别训练中没有遇到过的对象,如果需要使该神经网络识别新的对象,则需要收集大量的该对象的样本,对整个神经网络(或者至少是该神经网络的全连接层)进行重新训练。而本发明提供的孪生神经网络架构并不直接输出该样本的标签,而是输出该样本和样本库里其他成员的相似度值,对于一个新的对象,能够给出“与样本库中所有的成员都不相似”的结论,即判断该对象是一个从未见过的对象,由于中文汉字数量庞大,任何数据库都难以包括所有汉字,本发明提供的这一特征非常重要,增强了书法字识别的鲁棒性。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是根据本发明一个实施例的基于孪生卷积神经网络的书法字识别方法的流程图;
图2是根据本发明一个实施例的孪生卷积神经网络整体架构图;
图3是根据本发明另一实施例的孪生卷积神经网络的整体架构图;
图4是根据本发明一个实施例的孪生卷积神经网络的具体结构图;
图5是根据本发明一个实施例的字类样本示意图;
图6是根据本发明一个实施例的实验效果对比图;
附图中,Input Layer-输入层;input-输入;output-输出;none-无;Model-模型;Functional-功能性;Euclidean Distance-欧几里得距离;Max Pooling-最大池化;GlobalAverage Pooling-全局平均池化。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本发明基于孪生卷积神经网络构建模型架构,以实现书法字的识别。简言之,在训练过程中,将训练集中的两个样本分别输入两个完全相同的卷积神经网络中,得出两个特征向量。再将这两个特征向量的相似度进行计算,得出一个数值。如果这两个字的标签一样,则它们是同一个字,它们特征向量的相似度等于1。反之,如果这两个字的标签不同,则它们特征向量的相似度等于0。并且,反向传导标签的布尔值和所计算出的相似度值的差值并进行随机梯度下降,对神经网络进行训练。在实际应用中,将待识别的书法字图片输入经训练的孪生卷积神经网络,输出对应的特征向量,将该特征向量与特征向量库里的成员进行比对,取相似度最高的成员,作为待识别书法字的识别结果。本发明可用于识别书法字,也可用于识别书法字的字体,如楷书、草书、行书等类别。
具体地,参见图1所示,所提供的基于孪生卷积神经网络的书法字识别方法包括以下步骤。
步骤S110,构建孪生卷积神经网络模型。
在一个实施例中,参见图2所示,孪生卷积神经网络的整体架构包括输入层、两个卷积神经网络、池化层(标记为dense_1)和全连接层(标记为dense_2)。孪生卷积神经网络的处理过程是:接收两个相同尺寸如100×100的灰度图像,将图像分别输入两个相同的深度卷积神经网络(CNN)提取不同深度的特征。例如,各卷积神经网络包含四个层次的特征提取结构,每个特征提取结构主要包括卷积层和池化层,参见下表1。图像首先被发送到卷积层,然后是池化层。然后,应用ReLU激活函数以及批规范化(BN,Batchnomalization)。在图2中,这些层重复四次,每次都设置稍微不同的内核大小和内核数量。最后,应用全局池化层和全连接层。在图2实施例中,两个卷积神经网络提取图像特征,并将其表示为由48个值组成的特征向量。
表1深度卷积神经网络
在另外的实施例中,孪生卷积神经网络的结构参见图3和图4所示,其中m和n分别是介于28和1000之间的一个整数,x是介于10到100之间的一个整数。
具体地,第一特征提取结构设置为:
32-128个卷积核为p×p的矩阵,其中p是介于5和15之间的一个整数;
k×k的池化层,其中k是介于1和5之间的一个整数;
Batchnomalization层;
dropout层,保留25%~75%数量的神经元。
第二特征提取结构设置为:
64-256个卷积核为q×q的矩阵,其中q是介于5和10之间的一个整数;
k×k的池化层,其中k是介于1和5之间的一个整数;
Batchnomalization层;
dropout层,保留25%~75%数量的神经元。
第三特征提取结构设置为:
64-256个卷积核为s×s的矩阵,其中s是介于2和6之间的一个整数;
k×k的池化层,其中k是介于1和5之间的一个整数;
Batchnomalization层;
dropout层,保留25%~75%数量的神经元。
第四特征提取结构设置为:
128-512个卷积核为t×t的矩阵,其中t是介于2和6之间的一个整数;
k×k的池化层,其中k是介于1和5之间的一个整数;
Batchnomalization层;
dropout层,保留25%~75%数量的神经元。
步骤S120,采集数据集,并构建训练集以训练孪生神经网络模型,该训练集反映字或字体与样本图片之间的对应关系。
在该步骤中,首先采集数据集,进而构建训练集,在一个实施例中,该训练集包含多个字(即以字作为类别),每个字对应一个或多个样本,其中各个字所对应的样本反映不同的字体类别和不同的形态特征。
例如,可从http://www.shufazidian.com/网站下载中国书法字,截至2021年7月23日,该网站共存储了440412幅图像,包含8种字体和6197个不同的字。对于常用字,对应字体数更多,而有的字体样本很少或没有样本。表2是字数以及每个字的样本数的汇总。
表2字体类别以及每个不同字的样本数
在所下载的图像中,大多数图像仅包含一个字,但有些包含多个字,因此需要分割成单个字的图像。图5示意了包含38个样本的示例字和一个包含多个字的图像。
具体地,首先,标记例如1000个包含多个字的图像和1000个包含单个字的图像。然后,设置这两个数据集来训练一个与孪生卷积神经网络中使用的结构相同的CNN,通过这种方式,在识别图像是包含多个字还是单个字方面达到99.8%的准确率。高准确率是因为单字图像和多字图像在视觉上有显著差异。然后,使用经训练的CNN将所有440412幅图像分成相应的类别(即属于多字图像还是单字图像)。为了实现基于少量样本训练模型,只需要每个字少量的样本,所以,在一个实施例中,如果字已经有三个或更多的样本,就删除带有多个字的图像。对于少于三个样本的类别,则保留具有多个字的图像,并将它们分成单个字体。
然后,对采集的数据集进行预处理。输入图像的预处理包括图像文件的组织、图像形状和颜色的归一化、图像分辨率的标准化以及训练和测试集的创建。考虑到不同图像的分辨率和颜色差异很大,分辨率过低导致信息丢失,分辨率过高导致内存不够,优选地,采用100×100像素。由于颜色通常不会在书法字识别中发挥作用,因此可以将所有图像转换为灰度图像。然后,将像素值标准化到0-1的范围,并将像素值标准化到均值和单位方差为零。
本发明提供的孪生卷积神经网络模型可实现对字类别或字体类别的识别。分别训练字类及字体的识别是为了设计更简单、编码更直接,同时由于数据集的小样本量特性,训练时间较短。为了识别字而不考虑字体,将属于每个字的所有字体进行合并,然后将每个字类中的样本以8:1:1的比例随机分成训练集、验证集和测试集。在另一实施例中,为了训练识别字体而不考虑字,将属于每个字体的所有字体合并,然后以8:1:1的比例将每个字体类别中的样本随机分成训练集、验证集和测试集。
优选地,数据集没有经过噪声消除、对比度增强、无关对象删除等。因为使用的卷积神经网络将自动考虑这些因素。此外,为了缩减样本数据量,通过样本的随机旋转和/或位移来增加数据多样性。
为了尽可能完整地收集书法字作为孪生卷积神经网络的训练集,收集的字的对象数在3000以上,每个对象的样本数大于等于1。例如,将每个字的样本数控制在10个样本以内,具体做法是将样本数大于10的字的样本集中的成员随机删除一部分,使得最终的样本数小于10。这样可以保证训练出来的孪生卷积神经网络不依赖大样本数据集,在学习完成后使用的过程中,如果遇到新的字可以高效的进行拓展,而不需要收集大量的新字样本进行训练。
在另一优选实施例中,采用删减版数据集。训练小样本书法字识别模型的原因是有一部分字样本数量少,以及需要能够识别例如不包括在6197个中国书法字的数据集中的新字类别。为了测试孪生卷积神经网络在小样本学习中的能力,随机删除了每个字的样本,使得每字不超过3个样本。然后,重复上面的训练、验证和测试集分离过程,分别创建用于字和字体识别的数据集。表3显示的是训练集缩减后的字数和样本数统计。
表3训练集缩小后的字数和样本数统计
以识别字类别为例,孪生卷积神经网络的训练过程结合图2和图3所示,将分辨率为m×n(例如100×100)的样本A和样本B分别输入两个完全相同的卷积神经网络。两个输入文字的图片分别经过卷积神经网络的计算,得到两个10到100维的单个字的特征向量后,将这两个向量进行欧几里得距离或者cosine相似度的计算。
若输入的样本A和B为同一个字,则输出的两个特征向量的欧几里的距离较小或者cosine相似度较大;若输出的A和B不为同一个字,则输出的两个特征向量的欧几里的距离较大或者cosine相似度较小。
将计算出的距离值或者相似度值和这两个字已知标签对比得出布尔值(例如,两个输入图片是同一个字的布尔值为“1”,不同字的布尔值为“0”)进行对比,求出它们的差值。
例如,在两个图像通过两个相同的中枢神经系统发送后,获得两个特征向量,每个维度为48。然后,简单地比较两个向量之间的欧几里德距离,以获得两个图像之间相似性的度量。最后,连续应用两个sigmoid函数。输出是一个布尔值:0表示两个图像包含不同的标记,1表示两个图像包含相同的字。
训练过程中,将相似度差值作为损失函数进行反向传播(back propagation),可更新整个孪生神经网络架构的所有权重和偏差,从而完成训练。
需要说明的是,在训练过程或实际应用过程中,如果遇到了没有见过的字,可以将新的字囊括在字库(特征向量库)里,增加该模型认识字的数量。
步骤S130,以包含书法字的目标图片作为输入,利用经训练的孪生神经网络模型预测字类别或字体类别。
在模型训练完成后,即可实时识别目标图片。例如,对于一张要预测图片所属类别,可以从不同类别中抽取相同数量图片,然后分别和这张要预测图片输入孪生神经网络进行预测,通过计算其与不同类别图像中哪一个比较相似来获得预测结果。
为了进一步验证本发明的效果,进行了实验。首先训练识别字类。来自不同字体的相同字的样本被合并在一起。然后,以8:1:1的比例将每个字类中的样本随机分成训练集、验证集和测试集。图像通过SNN(孪生神经网络)发送,训练结果如图6所示,其中示意了训练损失和准确率(Training Loss and Accuracy)。结果表明,训练集上的准确率为94.5%,损失为0.5。
为了训练孪生卷积神经网络识别字体而不考虑字类,将属于每个字体的所有字类合并,然后以8:1:1的比例将每个字体类中的样本随机分成训练、验证和测试集。训练结果表明,训练集上的准确率为95.5%,损失为0.5。
综上所述,本发明运用孪生卷积神经网络架构,通过小样本量数据就可以完成训练,并取得较高的识别准确率。另外,在遇到训练集中不存在的字时,不会将其错误分类,而是识别出这是一个没有见过的字,并能仅见过一次以后就进行识别。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。
Claims (10)
1.一种基于孪生卷积神经网络的书法字识别方法,包括以下步骤:
获取待识别的书法字图片;
将所述书法字图片输入经训练的孪生卷积神经网络模型,该孪生神经网络模型包含第一卷积神经网络和第二卷积神经网络,其中第一卷积神经网络输出对应的第一特征向量,第二卷积神经网络输出对应的第二特征向量;
计算第一特征向量和第二特征向量之间的相似度;
基于所述相似度结果预测书法字的类别。
2.根据权利要求1所述的方法,其特征在于,根据以下步骤训练所述孪生卷积神经网络模型:
构建训练集,该训练集以字作为类别,每个类别对应一个或多个样本图片,其中每个类别所对应的样本图片反映字体类别和形态特征;
利用所述训练集以设定的损失为优化目标,训练所述孪生卷积神经网络模型,其中针对两个样本图片,分别输入第一卷积神经网络和第二卷积神经网络,得出两个特征向量,计算所述两个特征向量的相似度,并采用布尔值来标记所述两个特征向量的相似度结果,以表征所述两个样本图片是否包含相同的书法字,并且训练过程中,通过反向传导布尔值和计算出的相似度值的差值进行随机梯度下降。
3.根据权利要求2所述的方法,其特征在于,所述训练集中所包含字的数目大于3000,每个字对应的样本数小于等于10。
4.根据权利要求1所述的方法,其特征在于,第一卷积神经网络和第二卷积神经网络具有相同的结构,各包含四个特征提取结构,其中:
第一特征提取结构包含卷积层,卷积核数目设置为32-128,卷积核大小设置为p×p,p是介于5和15之间的整数;k×k的池化层,k是介于1和5之间的整数;批规范化层;丢弃层,设置为保留25%-75%数量的神经元;
第二特征提取结构包括卷积层,卷积核数目设置为64-256,卷积核大小设置为q×q,q是介于5和10之间的整数;k×k的池化层,k是介于1和5之间的一个整数;批规范化层;丢弃层,设置为保留25%-75%数量的神经元;
第三特征提取结构包括卷积层,卷积核数目设置为64-256,卷积核大小设置为s×s,其中s是介于2和6之间的一个整数;k×k的池化层,k是介于1和5之间的一个整数;批规范化层;丢弃层,设置为保留25%-75%数量的神经元;
第四特征提取结构包括卷积层,卷积核数目设置为128-512,卷积核大小设置为t×t,t是介于2和6之间的一个整数;k×k的池化层,k是介于1和5之间的一个整数;批规范化层;丢弃层,设置为保留25%-75%数量的神经元。
5.根据权利要求1所述的方法,其特征在于,采用欧几里得距离或者cosine相似度来衡量第一特征向量和第二特征向量之间的相似度。
6.根据权利要求1所述的方法,其特征在于,还包括:
根据第一特征向量和第二特征向量之间的相似度结果判断待识别的字是否存在于字库中;
在判断结果为否的情况下,则将该待识别书法字囊括在字库中。
7.根据权利要求2所述的方法,其特征在于,还包括:采用第二训练集训练所述孪生卷积神经网络模型,在第二训练集中,以字体作为类别,每个类别对应一个或多个样本图片。
8.根据权利要求2所述的方法,其特征在于,对于所述训练集,如果一个字已经有三个或三个以上的样本,则删除带有多个字体的样本图片,如果一个字少于三个样本,则保留具有多个字体的图片,并将其分成单个字体。
9.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。
10.一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210042795.7A CN116486419A (zh) | 2022-01-14 | 2022-01-14 | 一种基于孪生卷积神经网络的书法字识别方法 |
PCT/CN2022/140065 WO2023134402A1 (zh) | 2022-01-14 | 2022-12-19 | 一种基于孪生卷积神经网络的书法字识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210042795.7A CN116486419A (zh) | 2022-01-14 | 2022-01-14 | 一种基于孪生卷积神经网络的书法字识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116486419A true CN116486419A (zh) | 2023-07-25 |
Family
ID=87210659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210042795.7A Pending CN116486419A (zh) | 2022-01-14 | 2022-01-14 | 一种基于孪生卷积神经网络的书法字识别方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116486419A (zh) |
WO (1) | WO2023134402A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117727053A (zh) * | 2024-02-08 | 2024-03-19 | 西南科技大学 | 一种多类别汉字单样本字体识别方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117132998B (zh) * | 2023-08-29 | 2024-05-03 | 安徽以观文化科技有限公司 | 书法作品单个字体识别方法及其识别系统 |
CN117437530A (zh) * | 2023-10-12 | 2024-01-23 | 中国科学院声学研究所 | 合成孔径声纳感兴趣小目标孪生匹配识别方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190019058A1 (en) * | 2017-07-13 | 2019-01-17 | Endgame, Inc. | System and method for detecting homoglyph attacks with a siamese convolutional neural network |
CN109993236B (zh) * | 2019-04-10 | 2020-11-27 | 大连民族大学 | 基于one-shot Siamese卷积神经网络的少样本满文匹配方法 |
CN111191067A (zh) * | 2019-12-25 | 2020-05-22 | 深圳市优必选科技股份有限公司 | 绘本识别方法、终端设备及计算机可读存储介质 |
US11263753B2 (en) * | 2020-04-07 | 2022-03-01 | Naver Corporation | Method for training a convolutional neural network for image recognition using image-conditioned masked language modeling |
CN112163400A (zh) * | 2020-06-29 | 2021-01-01 | 维沃移动通信有限公司 | 信息处理方法及装置 |
-
2022
- 2022-01-14 CN CN202210042795.7A patent/CN116486419A/zh active Pending
- 2022-12-19 WO PCT/CN2022/140065 patent/WO2023134402A1/zh unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117727053A (zh) * | 2024-02-08 | 2024-03-19 | 西南科技大学 | 一种多类别汉字单样本字体识别方法 |
CN117727053B (zh) * | 2024-02-08 | 2024-04-19 | 西南科技大学 | 一种多类别汉字单样本字体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2023134402A1 (zh) | 2023-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2691214C1 (ru) | Распознавание текста с использованием искусственного интеллекта | |
US10936862B2 (en) | System and method of character recognition using fully convolutional neural networks | |
KR101865102B1 (ko) | 시각 문답을 위한 시스템 및 방법 | |
CN108804530B (zh) | 对图像的区域加字幕 | |
RU2661750C1 (ru) | Распознавание символов с использованием искусственного интеллекта | |
CN116486419A (zh) | 一种基于孪生卷积神经网络的书法字识别方法 | |
RU2757713C1 (ru) | Распознавание рукописного текста посредством нейронных сетей | |
RU2693916C1 (ru) | Распознавание символов с использованием иерархической классификации | |
CN110909820A (zh) | 基于自监督学习的图像分类方法及系统 | |
Wilkinson et al. | Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections | |
RU2707147C1 (ru) | Обучение нейронной сети посредством специализированных функций потерь | |
CN111738169B (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN110188827B (zh) | 一种基于卷积神经网络和递归自动编码器模型的场景识别方法 | |
EP3539051A1 (en) | System and method of character recognition using fully convolutional neural networks | |
CN109983473A (zh) | 灵活的集成识别和语义处理 | |
CN115482418B (zh) | 基于伪负标签的半监督模型训练方法、系统及应用 | |
US20220164533A1 (en) | Optical character recognition using a combination of neural network models | |
Nikitha et al. | Handwritten text recognition using deep learning | |
Nguyen et al. | Nom document digitalization by deep convolution neural networks | |
US11315038B2 (en) | Method to measure similarity of datasets for given AI task | |
Al Ghamdi | A novel approach to printed Arabic optical character recognition | |
CN113392929B (zh) | 一种基于词嵌入与自编码器融合的生物序列特征提取方法 | |
RU2703270C1 (ru) | Оптическое распознавание символов посредством применения специализированных функций уверенности, реализуемое на базе нейронных сетей | |
Sharma et al. | Optical Character Recognition Using Hybrid CRNN Based Lexicon-Free Approach with Grey Wolf Hyperparameter Optimization | |
Jain | Unconstrained Arabic & Urdu text recognition using deep CNN-RNN hybrid networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |