CN113051871A - 一种基于造字机理的甲骨字生成方法 - Google Patents
一种基于造字机理的甲骨字生成方法 Download PDFInfo
- Publication number
- CN113051871A CN113051871A CN202110282191.5A CN202110282191A CN113051871A CN 113051871 A CN113051871 A CN 113051871A CN 202110282191 A CN202110282191 A CN 202110282191A CN 113051871 A CN113051871 A CN 113051871A
- Authority
- CN
- China
- Prior art keywords
- oracle
- character
- bone
- characters
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种基于造字机理的甲骨字生成方法,包括以下步骤:建立原型构件库;识别甲骨字的构成及构件;建立甲骨文智能造字的数学模型;根据所述甲骨文智能造字的数学模型,生成新的甲骨字符;将所述新的甲骨文符进行编码,然后保存至甲骨文字库。本发明将认知心理学和甲骨字造字原理相结合,提出了基于构件的甲骨文智能造字理论,建立了甲骨字智能造字的数学模型,设计出甲骨字智能造字的计算机体系结构。
Description
技术领域
本发明涉及文字处理技术领域,具体地说,特别涉及一种基于造字机理的甲骨字生成方法。
背景技术
文字信息化是信息化的重要内容,现有的中文信息处理主要基于字库方式,现有的汉字字库存在很多不足如1)没有长期稳定的国家标准和国际标准;2)不符合汉字造字规律,不能很好的传承中华文明;3)不能满足社会的需求;4)信息熵高,信息处理效率低。对于甲骨字这种没有字库的集外字,如何能让计算机像处理现代文字一样处理甲骨文字,越来越成为计算机学者和文字与语言学者共同关注的课题。但是,多年来,在甲骨文信息化过程中,一直存在三个难以解决的问题:一是甲骨文难以定形,甲骨文字字形复杂,存在较多的异体字和合体字,很难像现代汉字一样确定每一个甲骨文字的字形结构和类型;二是甲骨文字难以定量,大量的未释字和新出土的甲骨字难以表示;三是甲骨文字难以输入计算机。为此,许多学者试图通过研究和设计字形库来解决计算机中甲骨文字形的显示和打印问题,通过设计各种各样的输入编码方案来解决甲骨文的输入问题。多年来的实践证明,对于规范的现代汉字,可以使用这样的办法去解决;但对于甲骨文字,这一方法并不完全适用。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种基于造字机理的甲骨字生成方法。所述技术方案如下:
一方面,提供了一种基于造字机理的甲骨字生成方法,包括以下步骤:
建立原型构件库;
识别甲骨字的构成及构件;
建立甲骨文智能造字的数学模型;
根据所述甲骨文智能造字的数学模型,生成新的甲骨字符;
将所述新的甲骨文符进行编码,然后保存至甲骨文字库。
进一步地,所述原型构件库包括甲骨字原型的具体构成、甲骨字原型构件的数量、甲骨字原型构件。
进一步地,所述建立原型构件库的步骤具体为:
规划原型构件库;
设计原型构件库;
提取原型构件;
实现原型构件库;
分析调整原型构件;
维护原型构件库。
进一步地,所述甲骨字的构成是指甲骨字构件按照一定的组合规则生成甲骨字的过程,描述甲骨字基元在甲骨字图形中的位置关系。
进一步地,还包括:通过分步胶囊体系结构识别甲骨字的构成及构件;
所述分步胶囊体系结构包括第一层模块、第二层模块以及第三次模块;
所述第一次模块为卷积层模块,通过多层卷积模块提取甲骨文字符图片中空间特征信息,每层卷积后都采用激活函数进行正则化;
所述第二层模块为胶囊网络层,在所述卷积层模块后加入胶囊网络模块,所述第二层模块包括两层胶囊网络;每个胶囊网络对应一个甲骨文构件;两层胶囊网络之间的通过动态路由算法进行多次迭代更新;
第三层模块为重构模块,将对应的胶囊网络的激活向量重新构成甲骨文构件的图片,通过重构图像与原始图像的对比,计算出重构损失,使激活向量得到更多的有用信息。
进一步地,所述识别甲骨字的构成及构件的步骤具体为:
创建用于对甲骨字符数据集进行分类的分步胶囊体系结构;
在第一层模块中,提取甲骨文字符的结构信息;
在第二层模块中,第一层胶囊网络接收到卷积层模块传递过来的数据,在甲骨文字符数据集上进行多目标预测,判断该甲骨字符是否包含对应的构件,通过激活向量来表示每个甲骨文构件出现的概率、位置、大小、和方向;第一层胶囊网络中,每个胶囊对应一个甲骨文构件,进过动态路由算法多次迭代更新,筛选出更接近目标的甲骨文构件传递到第二层胶囊网络中;
在第三层模块中,将对应的胶囊网络的激活向量重新构成甲骨文构件的图片,通过重构图像与原始图像的对比,计算出重构损失,使激活向量得到更多的有用信息;
将甲骨文字形图片输入已训练的甲骨文构件库,得到第二层模块的预测向量组,通过计算每个甲骨文构件对应的激活向量的模长,得到每个甲骨文构件的预测概率,然后识别出甲骨文字形中所包含的甲骨文构件。
进一步地,所述生成甲骨文智能造字的数学模型的步骤具体为:
根据点集拓扑学理论,设S为甲骨字所有甲骨字结构组成的集合,|S|<|Q|,S为有限集;甲骨字结构组成的集合可用以下公式来描述:
进一步地,所述根据所述甲骨文智能造字的数学模型,甲骨字自动生成的步骤具体为:
a)根据甲骨字的结构的数学描述,进行甲骨字原型的选取;
b)把甲骨字原型pi映射到甲骨字结构si中,得到甲骨字的构件F(si,pi);
c)在甲骨字图形空间中,用一个或多个甲骨字构件F(si,pi)的合并来自动生成甲骨字Ci;
d)字形的统一处理,对自动生成的甲骨字的字体和字形进行选择,需要构建一个函数Tfs,对所生成的甲骨字进行统一处理;
其中,函数Tfs中,f为字形,s为字号。
进一步地,所述将所述新的甲骨文符进行编码的步骤具体为:
分析甲骨字符;
研究编码方法;
制定编码规则;
对编码进行试验;
计算和分析试验结果;
完善甲骨字的编码。
本发明实施例提供的技术方案带来的有益效果是:
(1)将认知心理学和甲骨字造字原理相结合,提出了基于构件的甲骨文智能造字理论,建立了甲骨字智能造字的数学模型,设计出甲骨字智能造字的计算机体系结构。
(2)依据甲骨字的特殊性兼顾计算机处理效率,采用Capsule网络自动识别并标记出甲骨字中所包含的构件,提出“甲骨字结构+甲骨字原型”的编码方案。
(3)给出了甲骨字原型映射知识获取的方法,提出了用语义层次网络组织和表示甲骨字智能造字的思想。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种基于造字机理的甲骨字生成方法的流程图;
图2是本发明实施例的原型构件库建立过程的流程图;
图3是本发明实施例的基于Capsule网络的甲骨文构件识别流程图;
图4是本发明实施例的甲骨字编码过程的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明提供了一种基于造字机理的甲骨字生成方法,参见图1,包括以下步骤:
建立原型构件库;
识别甲骨字的构成及构件;
建立甲骨文智能造字的数学模型;
根据所述甲骨文智能造字的数学模型,生成新的甲骨字符;
将所述新的甲骨文符进行编码,然后保存至甲骨文字库。
进一步地,所述原型构件库包括甲骨字原型的具体构成、甲骨字原型构件的数量、甲骨字原型构件。
本实施例中,一种基于造字机理的甲骨字生成方法的流程具体参见图1,附图中,Capsule网络即为胶囊网络。
进一步地,参见图2,所述建立原型构件库的步骤具体为:
规划原型构件库;
设计原型构件库;
提取原型构件;
实现原型构件库;
分析调整原型构件;
维护原型构件库。
进一步地,所述甲骨字的构成是指甲骨字构件按照一定的组合规则生成甲骨字的过程,描述甲骨字基元在甲骨字图形中的位置关系。
进一步地,还包括:通过分步胶囊体系结构识别甲骨字的构成及构件;
所述分步胶囊体系结构包括第一层模块、第二层模块以及第三次模块;
所述第一次模块为卷积层模块,通过多层卷积模块提取甲骨文字符图片中空间特征信息,每层卷积后都采用激活函数进行正则化;
所述第二层模块为胶囊网络层,在所述卷积层模块后加入胶囊网络模块,所述第二层模块包括两层胶囊网络;每个胶囊网络对应一个甲骨文构件;两层胶囊网络之间的通过动态路由算法进行多次迭代更新;
第三层模块为重构模块,将对应的胶囊网络的激活向量重新构成甲骨文构件的图片,通过重构图像与原始图像的对比,计算出重构损失,使激活向量得到更多的有用信息。
进一步地,参见图3,所述识别甲骨字的构成及构件的步骤具体为:
创建用于对甲骨字符数据集进行分类的分步胶囊体系结构;
在第一层模块中,提取甲骨文字符的结构信息;
在第二层模块中,第一层胶囊网络接收到卷积层模块传递过来的数据,在甲骨文字符数据集上进行多目标预测,判断该甲骨字符是否包含对应的构件,通过激活向量来表示每个甲骨文构件出现的概率、位置、大小、和方向;第一层胶囊网络中,每个胶囊对应一个甲骨文构件,进过动态路由算法多次迭代更新,筛选出更接近目标的甲骨文构件传递到第二层胶囊网络中;
在第三层模块中,将对应的胶囊网络的激活向量重新构成甲骨文构件的图片,通过重构图像与原始图像的对比,计算出重构损失,使激活向量得到更多的有用信息;
将甲骨文字形图片输入已训练的甲骨文构件库,得到第二层模块的预测向量组,通过计算每个甲骨文构件对应的激活向量的模长,得到每个甲骨文构件的预测概率,然后识别出甲骨文字形中所包含的甲骨文构件。
进一步地,所述生成甲骨文智能造字的数学模型的步骤具体为:
根据点集拓扑学理论,设S为甲骨字所有甲骨字结构组成的集合,|S|<|Q|,S为有限集;甲骨字结构组成的集合可用以下公式来描述:
进一步地,所述根据所述甲骨文智能造字的数学模型,甲骨字自动生成的步骤具体为:
a)根据甲骨字的结构的数学描述,进行甲骨字原型的选取;
b)把甲骨字原型pi映射到甲骨字结构si中,得到甲骨字的构件F(si,pi);
c)在甲骨字图形空间中,用一个或多个甲骨字构件F(si,pi)的合并来自动生成甲骨字Ci;
d)字形的统一处理。对自动生成的甲骨字的字体和字形进行选择,需要构建一个函数Tfs,对所生成的甲骨字进行统一处理;
其中,函数Tfs中,f为字形,s为字号。
具体地,深入分析认知心理学中的原型理论,得出甲骨字这个客体是无法定量的,而组成甲骨字的原型是有限的。依据认知心理学的原型匹配理论,可以认为甲骨字是由“象形”和“指事”符号(原型)按照某种规则进行组合而造出来的,原型是甲骨字的基本组成成分。在此基础上,依据甲骨文字的特殊性兼顾计算机处理效率总结出甲骨字原型提取准则。以1024个已释甲骨字为实验,进行原型提取实验为甲骨字智能造字打下基础。设P为甲骨字符集的所有原型的集合,因为|P|<|Ω|,所以P为有限集;设pi是P集合中的元素,所有甲骨字符原型组成的集合的数学表达式如下:
进一步地,参见图4,所述将所述新的甲骨文符进行编码的步骤具体为:
分析甲骨字符;
研究编码方法;
制定编码规则;
对编码进行试验;
计算和分析试验结果;
完善甲骨字的编码。
本实施例中,利用已有的甲骨字文字字形数据,通过SVM,深度神经网络等方法研究了甲骨字识别技术。利用计算机对甲骨字的字形、笔迹进行甲骨字的识别,又反过来推动了甲骨字的整理工作。同时,本项目还将收集一大批手写甲骨字形扩充甲骨文字符集,利用深度学习形成构件原型库的初始实验集合。根据原型构件的目标要求,设计甲骨字原型构件提取流程。对不能拼组的甲骨字符进行分析,确定需要增加的原型构件,然后对原型构件库进行调整。
字形结构是描述字形的基本成分之间的关系的规则。结构规则库的建立是甲骨字形自动生成的前提,结构规则库的建立必须遵循汉字系统的结构性原理,便于认知,便于计算机处理。先按层次和平面分析法分析甲骨字符的结构,最后对甲骨字符的结构进行分类总结。
通过扩充和完善甲骨文原型构件库和结构规则库,采用Capsule网络自动识别甲骨字中的构件及位置空间向量得出甲骨字符自动生成的规律,然后创建造字知识库。依据造字知识库进行构件拼组生成新的甲骨字符。
本发明实施例提供的技术方案带来的有益效果是:
(1)将认知心理学和甲骨字造字原理相结合,提出了基于构件的甲骨文智能造字理论,建立了甲骨字智能造字的数学模型,设计出甲骨字智能造字的计算机体系结构。
(2)依据甲骨字的特殊性兼顾计算机处理效率,采用Capsule网络自动识别并标记出甲骨字中所包含的构件,提出“甲骨字结构+甲骨字原型”的编码方案。
(3)给出了甲骨字原型映射知识获取的方法,提出了用语义层次网络组织和表示甲骨字智能造字的思想。
以上仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于造字机理的甲骨字生成方法,其特征在于,包括以下步骤:
建立原型构件库;
识别甲骨字的构成及构件;
建立甲骨文智能造字的数学模型;
根据所述甲骨文智能造字的数学模型,生成新的甲骨字符;
将所述新的甲骨文符进行编码,然后保存至甲骨文字库。
2.如权利要求1所述的基于造字机理的甲骨字生成方法,其特征在于,所述原型构件库包括甲骨字原型的具体构成、甲骨字原型构件的数量、甲骨字原型构件。
3.如权利要求1所述的基于造字机理的甲骨字生成方法,其特征在于,所述建立原型构件库的步骤具体为:
规划原型构件库;
设计原型构件库;
提取原型构件;
实现原型构件库;
分析调整原型构件;
维护原型构件库。
4.如权利要求1所述的基于造字机理的甲骨字生成方法,其特征在于,所述甲骨字的构成是指甲骨字构件按照一定的组合规则生成甲骨字的过程,描述甲骨字基元在甲骨字图形中的位置关系。
5.如权利要求1所述的基于造字机理的甲骨字生成方法,其特征在于,还包括:通过分步胶囊体系结构识别甲骨字的构成及构件;
所述分步胶囊体系结构包括第一层模块、第二层模块以及第三次模块;
所述第一次模块为卷积层模块,通过多层卷积模块提取甲骨文字符图片中空间特征信息,每层卷积后都采用激活函数进行正则化;
所述第二层模块为胶囊网络层,在所述卷积层模块后加入胶囊网络模块,所述第二层模块包括两层胶囊网络;每个胶囊网络对应一个甲骨文构件;两层胶囊网络之间的通过动态路由算法进行多次迭代更新;
第三层模块为重构模块,将对应的胶囊网络的激活向量重新构成甲骨文构件的图片,通过重构图像与原始图像的对比,计算出重构损失,使激活向量得到更多的有用信息。
6.如权利要求1所述的基于造字机理的甲骨字生成方法,其特征在于,所述识别甲骨字的构成及构件的步骤具体为:
创建用于对甲骨字符数据集进行分类的分步胶囊体系结构;
在第一层模块中,提取甲骨文字符的结构信息;
在第二层模块中,第一层胶囊网络接收到卷积层模块传递过来的数据,在甲骨文字符数据集上进行多目标预测,判断该甲骨字符是否包含对应的构件,通过激活向量来表示每个甲骨文构件出现的概率、位置、大小、和方向;第一层胶囊网络中,每个胶囊对应一个甲骨文构件,进过动态路由算法多次迭代更新,筛选出更接近目标的甲骨文构件传递到第二层胶囊网络中;
在第三层模块中,将对应的胶囊网络的激活向量重新构成甲骨文构件的图片,通过重构图像与原始图像的对比,计算出重构损失,使激活向量得到更多的有用信息;
将甲骨文字形图片输入已训练的甲骨文构件库,得到第二层模块的预测向量组,通过计算每个甲骨文构件对应的激活向量的模长,得到每个甲骨文构件的预测概率,然后识别出甲骨文字形中所包含的甲骨文构件。
8.如权利要求6所述的基于造字机理的甲骨字生成方法,其特征在于,所述根据所述甲骨文智能造字的数学模型,甲骨字自动生成的步骤具体为:
a)根据甲骨字的结构的数学描述,进行甲骨字原型的选取;
b)把甲骨字原型pi映射到甲骨字结构si中,得到甲骨字的构件F(si,pi);
c)在甲骨字图形空间中,用一个或多个甲骨字构件F(si,pi)的合并来自动生成甲骨字Ci;
d)字形的统一处理,对自动生成的甲骨字的字体和字形进行选择,需要构建一个函数Tfs,对所生成的甲骨字进行统一处理;
其中,函数Tfs中,f为字形,s为字号。
9.如权利要求1所述的基于造字机理的甲骨字生成方法,其特征在于,所述将所述新的甲骨文符进行编码的步骤具体为:
分析甲骨字符;
研究编码方法;
制定编码规则;
对编码进行试验;
计算和分析试验结果;
完善甲骨字的编码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110282191.5A CN113051871A (zh) | 2021-03-16 | 2021-03-16 | 一种基于造字机理的甲骨字生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110282191.5A CN113051871A (zh) | 2021-03-16 | 2021-03-16 | 一种基于造字机理的甲骨字生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113051871A true CN113051871A (zh) | 2021-06-29 |
Family
ID=76513122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110282191.5A Pending CN113051871A (zh) | 2021-03-16 | 2021-03-16 | 一种基于造字机理的甲骨字生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113051871A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101881999A (zh) * | 2010-06-21 | 2010-11-10 | 安阳师范学院 | 甲骨文视频输入系统及实现方法 |
CN110147831A (zh) * | 2019-05-04 | 2019-08-20 | 鲁绪正 | 基于Capsule网络和迁移学习的甲骨文构件识别系统 |
CN110807100A (zh) * | 2019-10-30 | 2020-02-18 | 安阳师范学院 | 一种基于多模态数据的甲骨学知识图谱构建方法及系统 |
-
2021
- 2021-03-16 CN CN202110282191.5A patent/CN113051871A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101881999A (zh) * | 2010-06-21 | 2010-11-10 | 安阳师范学院 | 甲骨文视频输入系统及实现方法 |
CN110147831A (zh) * | 2019-05-04 | 2019-08-20 | 鲁绪正 | 基于Capsule网络和迁移学习的甲骨文构件识别系统 |
CN110807100A (zh) * | 2019-10-30 | 2020-02-18 | 安阳师范学院 | 一种基于多模态数据的甲骨学知识图谱构建方法及系统 |
Non-Patent Citations (3)
Title |
---|
刘成东 等: "基于部件拼接的高质量中文字库自动生成系统", 《北京大学学报(自然科学版)》 * |
梁添才: "基于认知机理的汉字智能造字研究", 《中国博士学位论文全文数据库信息科技辑》 * |
鲁绪正 等: "基于 Capsule 网络的甲骨文构件识别方法", 《智能系统学报》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Transformer-based dual relation graph for multi-label image recognition | |
Xiong et al. | Imposing label-relational inductive bias for extremely fine-grained entity typing | |
CN109885698A (zh) | 一种知识图谱构建方法及装置、电子设备 | |
Wang et al. | Bias also matters: Bias attribution for deep neural network explanation | |
Peng et al. | Radical-based hierarchical embeddings for Chinese sentiment analysis at sentence level | |
US20120054601A1 (en) | Methods and systems for automated creation, recognition and display of icons | |
He et al. | Image emotion distribution learning with graph convolutional networks | |
Pedro et al. | Using grammars for pattern recognition in images: a systematic review | |
Henderson | Analysis of engineering drawings and raster map images | |
Guan et al. | Self-supervised character-to-character distillation for text recognition | |
Singh et al. | A wide scale survey on handwritten character recognition using machine learning | |
US20240028828A1 (en) | Machine learning model architecture and user interface to indicate impact of text ngrams | |
Huang et al. | Target-Oriented Sentiment Classification with Sequential Cross-Modal Semantic Graph | |
Inkeaw et al. | Density based semi-automatic labeling on multi-feature representations for ground truth generation: Application to handwritten character recognition | |
US20220058842A1 (en) | Generating handwriting via decoupled style descriptors | |
CN113051871A (zh) | 一种基于造字机理的甲骨字生成方法 | |
CN113111136B (zh) | 一种基于ucl知识空间的实体消歧方法及装置 | |
CN113656556B (zh) | 一种文本特征抽取方法及知识图谱构建方法 | |
Ning et al. | A Comprehensive Review of Community Detection in Graphs | |
CN106156259A (zh) | 一种用户行为信息展示方法及系统 | |
CN116975298B (zh) | 一种基于nlp的现代化社会治理调度系统及方法 | |
Liang et al. | AMEMD-FSL: fuse attention mechanism and earth mover’s distance metric network to deep learning for few-shot image recognition | |
Qi et al. | A mixed image segmentation method based on intelligent equipment | |
Wang et al. | RL-CSDia: Representation learning of computer science diagrams | |
US20240144664A1 (en) | Multimodal data processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |