CN110147831A - 基于Capsule网络和迁移学习的甲骨文构件识别系统 - Google Patents
基于Capsule网络和迁移学习的甲骨文构件识别系统 Download PDFInfo
- Publication number
- CN110147831A CN110147831A CN201910377428.0A CN201910377428A CN110147831A CN 110147831 A CN110147831 A CN 110147831A CN 201910377428 A CN201910377428 A CN 201910377428A CN 110147831 A CN110147831 A CN 110147831A
- Authority
- CN
- China
- Prior art keywords
- capsule
- inscriptions
- bones
- tortoise shells
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及基于Capsule网络和迁移学习的甲骨文构件识别系统。Capsule网络将激活向量视作逻辑单元,其长度表示特定实体出现的概率,以判断图像中实例化实体的存在与否。为此,Capsule网络需要使用一种新型的非线性激活函数:将较短和较长的激活向量的长度分别缩放至0和1附近,并将向量长度控制在0和1之间。通过Squashing激活函数,Capsule实现了用激活向量的模长来表示实体出现的概率;本案通过数据增强(Data Augmentation)方法,对原始图片进行旋转、平移、反转、放缩等随机干扰,生成新的样本,从而扩充原始数据集。将扩充后的数据集样本进行归一化处理,放缩至(0,1)区间,并按照4:1的比例进行训练集‑测试集拆分,同时对样本标签进行独热编码。
Description
技术领域
本发明涉及基于Capsule网络和迁移学习的甲骨文构件识别系统。
背景技术
甲骨文作为汉字鼻祖,记录了商朝的经济和政治情况。其不仅是一种文化的符号、文明的标志,还复原了殷商历史的框架,将我国信史时代向前推进了近五个世纪。自1899年甲骨文出土后,经过“甲骨四堂”、胡厚宣等学者在100多年里承前启后孜孜不倦的研究,对甲骨文的综述、整理、考释等工作已有极大进展,甲骨文已逐渐渗透到历史学、艺术史、科技史等多个相关学科领域,其传承具有重大文化及学术意义。
甲骨文构件(部首)是甲骨文字系统的最底层最基础组成部分,同时甲骨文构件也是出现最早的一批甲骨文,他们精确反映出整个系统的性质、特点。目前,已识别的甲骨文字形有2400余个,未识别的有2500余个,对于破译未识别字形的工作来说,甲骨文构件的识别具有重大意义。许多学者从甲骨文构件的角度出发,以加快未知字形的解读工作,如李东琦、刘永革实现了一个基于甲骨文构件的编码器,将这个古老的文字进行数字化;高峰、吴琴霞等人通过建立甲骨文语义构件向量,结合Hopfield网络的识别结果的方法来匹配甲骨拓片或者照片中的模糊字;安阳师范学院通过仿射变换复用构件生成甲骨文字形,为以后的语义构件统计打下了基础。然而,通过构件研究甲骨文,首先需要专家进行构件标注,不仅需要相关专业知识,还要耗费大量的时间、人力和精力。针对上述问题,本案提出了一种新的通过机器识别甲骨文构件的方法,鉴于目前并没有公开的较为完整的数字化甲骨文字形集,为了便于后续研究,本案通过对经典书籍《甲骨文字编》中扫描的甲骨文字形进行预处理、标记,建立了两个类似于MINSIT数据集的已标记甲骨文数据集。这两个数据集不仅限于用于图像分类识别任务,还可以应用于其他甲骨文领域的研究中,如甲骨文字形破译等。本案希望通过这个数据集简化研究人员对于甲骨文数据收集、处理、筛选的时间,更多专注于研究本身。
发明内容
本发明的目的是提供基于Capsule网络和迁移学习的甲骨文构件识别系统。
本发明解决其上述的技术问题所采用以下的技术方案:apsule网络提供了一种基于聚类思想来代替池化完成特征整合的全新方案, Capsule本身也可以通过动态路由算法带来类似于池化的不变性。其优势在于,相对于传统的池化算法,Capsule保留了全部的图像特征,其表达能力也更强;
Capsule网络将激活向量视作逻辑单元,其长度表示特定实体出现的概率,以判断图像中实例化实体的存在与否。为此, Capsule网络需要使用一种新型的非线性激活函数:将较短和较长的激活向量的长度分别缩放至0和1附近,并将向量长度控制在0和1之间。通过Squashing激活函数,Capsule实现了用激活向量的模长来表示实体出现的概率;
Capsule网络通过动态路由算法来实现对更高层级的Capsule实体(或属性)的聚类,并将子Capsule输出向量中包含的特征信息传送到合适的父类Capsule中。在全连接形式的Capsule网络中,对于除了第一层Capsule之外的所有层级,每层Capsule的输出在传入下一层Capsule之前,都需要乘以一个权值矩阵W_ij进行变换:
统的卷积神经网络通常使用Dropout[13]作为正则化方法以降低过拟合风险,而Capsule网络使用一种重构结构进行正则化;
重构结构的原理类似于自动编码机中的解码器(Decoder)部分,在训练过程中,忽略其他所有Capsule,只使用正确类别所对应的Capsule的激活向量重新构建出原始图像。通过重构图像与原始输入图像计算得到重构损失,并且将该损失计入模型总损失中进行梯度回传更新。重构结构鼓励Capsule的激活向量对图像进行更为宏观的表征,使激活向量包含更多的有用信息,从而达到正则化的目的;
在输出Capsule之后建立重构模块。尝试了多种重构方式,包括全连接、卷积+上采样、反卷积等,最终选择使用多层反卷积的结构,对于甲骨文构件数据来说效果最优;每层反卷积层均采用ReLU激活函数,并且在每个反卷积层后设置Batch Normalization批标准化层;鉴于Capsule网络的计算量相比传统CNN结构提升了数倍,为了节省计算资源,本案采用了迁移学习的方式来训练OracleNet中的卷积模块。本案分别使用已在ImageNET数据集上预训练过的InceptionV3、ResNet50和Xception架构进行迁移学习。
进一步地,使用已经在ImageNet数据集上预训练完成的迁移学习网络(InceptionV3、ResNet50和Xception架构),解冻其最后10层卷积层的参数,在全局池化层后新添加由多层全连接层构成的分类器,并使用甲骨文部数据集对其进行微调(Fine-tuning)训练。
进一步地,在训练OracleNet时,将上一步中的预训练网络卷积部分的参数迁移至OracleNet的卷积模块,并且冻结其所有参数。使用甲骨文部数据集对Capsule模块和重构模块进行训练。
进一步地,将甲骨文字形图片其输入已训练的模型,得到Capsule输出层的预测向量组。计算每个类别对应的激活向量的模长,得到每个类别的预测概率,然后判断甲骨文字形中包含的构件。
进一步地,通过两种方式来对甲骨文字形中包含的构件进行判断,生成最终的预测构件列表:1)不考虑置信度:选取预测概率中最高的n个类别生成预测构件列表;2)考虑置信度:设置置信度阈值a,0%<a<100%。选取所有预测概率大于a的类别生成预测构件列表。
本发明的有益效果:鉴于甲骨文构件原始数据集大小不足,且各类别样本数不均衡,本案通过数据增强(Data Augmentation)方法,对原始图片进行旋转、平移、反转、放缩等随机干扰,生成新的样本,从而扩充原始数据集。将扩充后的数据集样本进行归一化处理,放缩至(0, 1)区间,并按照4:1的比例进行训练集-测试集拆分,同时对样本标签进行独热编码。
附图说明
图1 Capsule网络的动态路由算法。
图2 OracleNet架构。
图3 权值共享形式的Capsule。
图4基于迁移学习的OracleNet。
图5甲骨文构件识别流程。
具体实施方式
下面结合附图1-5对本发明的具体实施方式做一个详细的说明。
实施例:通过已识别并标记的甲骨文字形数据集Oracle-224对OracleNet进行测试评估。测试评估甲骨文构件识别是典型的多分类任务,通过精确度(Precision)对预测结果进行评估,其计算方式为:
Precision=TruePositive/(TruePositive+FalsePositive)
式中,TruePositive为真正例,FalsePositive为假正例。统计过程中,对于一个真实甲骨文字形样本,若其真实构件标签之一出现在预测构件列表中,即认为该标签被成功预测,判为真正例,否则将该标签判为假正例。
考虑置信度带来的好处是,可以展现出Capsule网络“真正”认为输入字形中存在的构件类别,更符合人类的认知方式。可以看到,当字形结构关系较为简单时,有着优秀的预测性能;但是,当字形较为复杂时,所有类别的概率都会降低,经常只输出1个预测类别甚至没有预测结果。此外,考虑置信度时没有优秀的模型融合方案,如果直接进行平均融合会使全部概率大幅降低至置信度以下,即使按照本案设计的融合方法,也会部分丧失模型融合带来的鲁棒性。
可以看到,不考虑置信度时,会强制模型输出概率最高的若干个类别,即使在所有概率都很低的情况下也可以进行预测。这种方式不论是对简单还是复杂的字形结构都有着优秀的识别能力,鲁棒性比考虑置信度时更高。但是,其缺点是会输出冗余的类别,干扰人们进一步的工作。如Top5预测虽然准确度最高,但是其预测的类别数远多余真实标签中的类别数,相关工作者还需要从预测的5个类别中再次进行人工筛选。
因为Capsule网络在进行预测时由对应各个构件的激活向量的模长进行判断,并输出其检测到的所有构件。如果一个构件存在包含关系,Capsule网络可能会错误地检测到所有包含的图形,并将其所包含的其他构件一起输出。
存在包含关系的构件的概率大小不一,所以很难通过对预测概率排序的方式来进行选择,而如果将全部构件都输出,则会造成预测结果的冗余,不利于进一步工作。如何在存在此类包含关系的众多构件中判断正确的类别是一个难点,也是本案未来进一步研究的方向。
本案提出了一种基于深度学习的机器识别甲骨文字形中包含构件的方法。首先,通过扫描和手工仿写的方式,分别建立了已标记的甲骨文字形数据集和构件数据集。接着,本案分析了Capsule网络的原理,以及其对于甲骨文构件识别任务的优势所在,并且构建了一个基于Capsule网络的甲骨文构件识别模型OracleNet。最后,本案使用之前构建的数据集对OracleNet进行了验证,通过迁移学习的方式使用甲骨文构件对其进行训练,训练过程中在验证集上的Top5准确率达到了90%以上;在甲骨文字形数据集上进行了最终测试和评估,得到了高于70%的精确度。实验表明,基于Capsule网络的OracleNet可以高效地对甲骨文字形中所含构件进行识别,并给出候选构件列表。
本案的贡献在于,通过将甲骨文构件标记的工作自动化,可以给甲骨文相关工作者高质量的指导意见,并且在很大程度上降低他们的工作量,从而将研究精力转向更深的领域。同时,对甲骨文构件的识别也提升了破译未识别甲骨文字形的可能性。本案的另一个贡献是建立了完善且公开的甲骨文字形和构件数据集。这两个数据集不仅可以对甲骨文相关工作者提供帮助,简化他们的数据处理相关工作,也可以用于各类图像识别模型的验证,从而帮助研究者优化算法。
本案验证了Capsule网络和传统CNN相比的优势:其将实体(或属性)的概念引入到了网络中,从而使不同Capsule(或神经元)之间具有更近似于人类知识体系的联系。本案中实验也表明了Capsule网络有效地学习到了甲骨文构件之间的关系知识,以及构件和字形之间的关系知识。在今后的工作中,可以继续研究如何继续利用这些知识去破译剩余的2500多个未被识别的甲骨文字形。
Claims (5)
1.基于Capsule网络和迁移学习的甲骨文构件识别系统,:apsule网络提供了一种基于聚类思想来代替池化完成特征整合的全新方案, Capsule本身也可以通过动态路由算法带来类似于池化的不变性;其优势在于,相对于传统的池化算法,Capsule保留了全部的图像特征,其表达能力也更强;Capsule网络将激活向量视作逻辑单元,其长度表示特定实体出现的概率,以判断图像中实例化实体的存在与否;Capsule网络需要使用一种新型的非线性激活函数:将较短和较长的激活向量的长度分别缩放至0和1附近,并将向量长度控制在0和1之间;通过Squashing激活函数,Capsule实现了用激活向量的模长来表示实体出现的概率;
Capsule网络通过动态路由算法来实现对更高层级的Capsule实体(或属性)的聚类,并将子Capsule输出向量中包含的特征信息传送到合适的父类Capsule中;
在全连接形式的Capsule网络中,对于除了第一层Capsule之外的所有层级,每层Capsule的输出在传入下一层Capsule之前,都需要乘以一个权值矩阵W_ij进行变换:
统的卷积神经网络通常使用Dropout[13]作为正则化方法以降低过拟合风险,而Capsule网络使用一种重构结构进行正则化;
重构结构的原理类似于自动编码机中的解码器(Decoder)部分,在训练过程中,忽略其他所有Capsule,只使用正确类别所对应的Capsule的激活向量重新构建出原始图像;
通过重构图像与原始输入图像计算得到重构损失,并且将该损失计入模型总损失中进行梯度回传更新;重构结构鼓励Capsule的激活向量对图像进行更为宏观的表征,使激活向量包含更多的有用信息,从而达到正则化的目的;在输出Capsule之后建立重构模块;尝试了多种重构方式,包括全连接、卷积+上采样、反卷积等,最终选择使用多层反卷积的结构,对于甲骨文构件数据来说效果最优;每层反卷积层均采用ReLU激活函数,并且在每个反卷积层后设置Batch Normalization批标准化层;鉴于Capsule网络的计算量相比传统CNN结构提升了数倍,为了节省计算资源,本案采用了迁移学习的方式来训练OracleNet中的卷积模块;本案分别使用已在ImageNET数据集上预训练过的InceptionV3、ResNet50和Xception架构进行迁移学习。
2.根据权利要求1所述的基于Capsule网络和迁移学习的甲骨文构件识别系统,其特征在于所述的使用已经在ImageNet数据集上预训练完成的迁移学习网络(InceptionV3、ResNet50和Xception架构),解冻其最后10层卷积层的参数,在全局池化层后新添加由多层全连接层构成的分类器,并使用甲骨文部数据集对其进行微调(Fine-tuning)训练。
3.根据权利要求1所述的基于Capsule网络和迁移学习的甲骨文构件识别系统,其特征在于所述的在训练OracleNet时,将上一步中的预训练网络卷积部分的参数迁移至OracleNet的卷积模块,并且冻结其所有参数;使用甲骨文部数据集对Capsule模块和重构模块进行训练。
4.根据权利要求1所述的基于Capsule网络和迁移学习的甲骨文构件识别系统,其特征在于所述的将甲骨文字形图片其输入已训练的模型,得到Capsule输出层的预测向量组;计算每个类别对应的激活向量的模长,得到每个类别的预测概率,然后判断甲骨文字形中包含的构件。
5.根据权利要求1所述的基于Capsule网络和迁移学习的甲骨文构件识别系统,其特征在于所述的通过两种方式来对甲骨文字形中包含的构件进行判断,生成最终的预测构件列表:1)不考虑置信度:选取预测概率中最高的n个类别生成预测构件列表;2)考虑置信度:设置置信度阈值a,0%<a<100%;选取所有预测概率大于a的类别生成预测构件列表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910377428.0A CN110147831A (zh) | 2019-05-04 | 2019-05-04 | 基于Capsule网络和迁移学习的甲骨文构件识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910377428.0A CN110147831A (zh) | 2019-05-04 | 2019-05-04 | 基于Capsule网络和迁移学习的甲骨文构件识别系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110147831A true CN110147831A (zh) | 2019-08-20 |
Family
ID=67594925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910377428.0A Pending CN110147831A (zh) | 2019-05-04 | 2019-05-04 | 基于Capsule网络和迁移学习的甲骨文构件识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110147831A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110738262A (zh) * | 2019-10-16 | 2020-01-31 | 北京市商汤科技开发有限公司 | 文本识别方法和相关产品 |
CN111539437A (zh) * | 2020-04-27 | 2020-08-14 | 西南大学 | 基于深度学习的甲骨文偏旁的检测与识别方法 |
CN113034415A (zh) * | 2021-03-23 | 2021-06-25 | 哈尔滨市科佳通用机电股份有限公司 | 一种铁路机车小部件图像扩增的方法 |
CN113051871A (zh) * | 2021-03-16 | 2021-06-29 | 安阳师范学院 | 一种基于造字机理的甲骨字生成方法 |
CN113505783A (zh) * | 2021-06-11 | 2021-10-15 | 清华大学 | 基于少次学习的甲骨文单字识别方法和装置 |
CN117409422A (zh) * | 2023-12-15 | 2024-01-16 | 吉林大学 | 一种基于手写输入的甲骨文检索方法 |
-
2019
- 2019-05-04 CN CN201910377428.0A patent/CN110147831A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110738262A (zh) * | 2019-10-16 | 2020-01-31 | 北京市商汤科技开发有限公司 | 文本识别方法和相关产品 |
CN111539437A (zh) * | 2020-04-27 | 2020-08-14 | 西南大学 | 基于深度学习的甲骨文偏旁的检测与识别方法 |
CN111539437B (zh) * | 2020-04-27 | 2022-06-28 | 西南大学 | 基于深度学习的甲骨文偏旁的检测与识别方法 |
CN113051871A (zh) * | 2021-03-16 | 2021-06-29 | 安阳师范学院 | 一种基于造字机理的甲骨字生成方法 |
CN113034415A (zh) * | 2021-03-23 | 2021-06-25 | 哈尔滨市科佳通用机电股份有限公司 | 一种铁路机车小部件图像扩增的方法 |
CN113505783A (zh) * | 2021-06-11 | 2021-10-15 | 清华大学 | 基于少次学习的甲骨文单字识别方法和装置 |
CN117409422A (zh) * | 2023-12-15 | 2024-01-16 | 吉林大学 | 一种基于手写输入的甲骨文检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147831A (zh) | 基于Capsule网络和迁移学习的甲骨文构件识别系统 | |
Aggarwal et al. | Generative adversarial network: An overview of theory and applications | |
He et al. | An end-to-end steel surface defect detection approach via fusing multiple hierarchical features | |
CN102314614B (zh) | 一种基于类共享多核学习的图像语义分类方法 | |
CN109670576B (zh) | 一种多尺度视觉关注图像描述方法 | |
CN112966684A (zh) | 一种注意力机制下的协同学习文字识别方法 | |
CN107563439A (zh) | 一种识别清洗食材图片的模型及识别食材类别的方法 | |
CN114418954A (zh) | 一种基于互学习的半监督医学图像分割方法及其系统 | |
CN108681539A (zh) | 一种基于卷积神经网络的蒙汉神经翻译方法 | |
Raschka | Machine Learning Q and AI: 30 Essential Questions and Answers on Machine Learning and AI | |
Puscasiu et al. | Automated image captioning | |
CN112651940A (zh) | 基于双编码器生成式对抗网络的协同视觉显著性检测方法 | |
CN116663540A (zh) | 基于小样本的金融事件抽取方法 | |
CN117058266A (zh) | 一种基于骨架和轮廓的书法字生成方法 | |
Alkalouti et al. | Encoder-decoder model for automatic video captioning using yolo algorithm | |
Elleuch et al. | The Effectiveness of Transfer Learning for Arabic Handwriting Recognition using Deep CNN. | |
CN111242059A (zh) | 基于递归记忆网络的无监督图像描述模型的生成方法 | |
Juyal et al. | Multilabel image classification using the CNN and DC-CNN model on Pascal VOC 2012 dataset | |
CN117541668A (zh) | 虚拟角色的生成方法、装置、设备及存储介质 | |
Zhai et al. | Deep convolutional neural network for facial expression recognition | |
Goel et al. | Injecting prior knowledge into image caption generation | |
Du et al. | Spatio-Temporal Transformer for Online Video Understanding | |
Wang et al. | Improving Oracle Bone Characters Recognition via A CycleGAN-Based Data Augmentation Method | |
CN111046934B (zh) | 一种swift报文软条款识别方法及装置 | |
Mishra et al. | Multi-attention TransUNet—a transformer approach for image description generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190820 |
|
WD01 | Invention patent application deemed withdrawn after publication |