CN114067331A - 一种甲骨文字体构建方法 - Google Patents

一种甲骨文字体构建方法 Download PDF

Info

Publication number
CN114067331A
CN114067331A CN202111412993.XA CN202111412993A CN114067331A CN 114067331 A CN114067331 A CN 114067331A CN 202111412993 A CN202111412993 A CN 202111412993A CN 114067331 A CN114067331 A CN 114067331A
Authority
CN
China
Prior art keywords
component
character
oracle
characters
vector diagram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111412993.XA
Other languages
English (en)
Other versions
CN114067331B (zh
Inventor
徐昊
吴垒
李沿增
刁晓蕾
史大千
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202111412993.XA priority Critical patent/CN114067331B/zh
Publication of CN114067331A publication Critical patent/CN114067331A/zh
Application granted granted Critical
Publication of CN114067331B publication Critical patent/CN114067331B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Processing (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

一种甲骨文字体构建方法,属于图像处理技术领域,包括收集甲骨文图片,并对所述甲骨文图片进行预处理;构建基于yolov4改进的目标检测模型提取处理后的甲骨文图片当中的部件,从而识别出构成甲骨文的部件和每个部件在甲骨文图片中所在的位置;构建部件位置关系推理模型,根据从甲骨文图片中识别出的构成甲骨文的部件以及每个部件在甲骨文图片中所在的位置,生成部件间位置关系;构建甲骨文部件的矢量图库;构建甲骨文文字与部件的知识图谱;生成包含完整部件的甲骨文的矢量图;根据得到的矢量图表示的最终文字结果,以ttf形式输出现代汉语立定字的字体。本发明方法实现了对知识库当中已有的古文字或者新的古文字拓片进行字体生成。

Description

一种甲骨文字体构建方法
技术领域
本发明属于图像处理技术领域,具体地,涉及一种甲骨文字体构建方法。
背景技术
甲骨文具有图画性强,笔画繁多,字无定型等特点,目前甲骨文,金文约有4500个汉字,但其中被考释的只有2000个,很多甲骨文图片并没有现代汉字的字体,这对古文字工作者造成了极大的困难,基于目标检测识别古文字的方法通常适用于训练集比较充足有明确的标签并且对于数据集的质量要求较高,但是对于未释字或者一些数据量很少的甲骨文字根本无法进行识别,主要技术难点在于以下几个方面:1、如果需要进行文字的整体识别,则需要足够的训练集图片进行训练,并且对于训练集的要求质量较高;2、对于知识库当中没有的字体来说,想要将甲骨文图片转换成ttf形式的字体存储到字库方便古文字学者进行研究极为困难;3、缺少完善的统计查询工具,甲骨文年代比较久远,缺少对应的甲骨文现代汉语文字的知识库,难以进行查询。
发明内容
本发明的目的是提出了一种基于目标检测、知识图谱、矢量图转换和字体生成的甲骨文字体构建方法,可以实现对于古文字拓片进行高准确率的识别和智能分析,实现了对知识库当中已有的古文字或者新的古文字拓片进行字体生成,对于古文字造字具有重要的指导意义,方便古文字学者进行古文字的探索。
为实现上述目的,本发明采用如下技术方案1、一种甲骨文字体构建方法,其特征在于,包括如下步骤:
步骤1:收集甲骨文图片,并对所述甲骨文图片进行预处理,所述预处理过程包括图片大小调整、色域变换和图片垂直翻转;
步骤2:将甲骨文图片输入到基于yolov4改进的部件目标检测模型中,识别出甲骨文图片中包含的部件和每个部件在甲骨文图片中所在的位置;
步骤3:构建部件位置关系推理模型,根据步骤2中从甲骨文图片识别出的构成甲骨文文字的部件,以及每个部件在甲骨文图片中所在的位置,生成部件间位置关系;具体根据部件与文字结构,生成对应的文字表达式,文字表达式用于体现甲骨文文字中包含的部件与部件之间的位置关系信息;文字表达式的格式为:数字+部件,数字代表预先设定的文字结构编号,部件数量至少一个,当具有两个及两个以上的部件时,文字表达式中部件前后排列顺序是按照文字结构中部件序号的先后顺序排列的,且文字结构中部件的序号是按照从左到右、从上到下、从内到外顺序进行编号;
步骤4:构建甲骨文部件的矢量图库;根据已有的甲骨文部件图片,使用imgToSvg()函数将所述甲骨文部件图片转换为现代汉语的部件的矢量图;生成矢量图后,将甲骨文图片中的字,以及由所述甲骨文图片生成的矢量图文件中<path>标签的"d"属性中的数据保存至数据库中;
步骤5:构建甲骨文文字与部件的知识图谱
1)定义甲骨文知识图谱本体
I首先定义文字类与部件类,然后在文字类下添加所有在文字表格数据中的具体的文字子类,并以"Character_eg",即"字符英文表示"作为每个文字子类的类名;同样,在部件类下添加所有在部件表格数据中的具体的部件子类,并以"Radical_eg",即"部件英文表示"作为每个部件子类的类名;
II定义类之间的关系
文字与部件的关系为文字包含部件,因此定义文字和部件的关系为“包含”;
III定义本体中,类拥有的属性,包括"Character_eg","Character_zh","Radical_all_num","Structure_eg","Structure_zh","Radical_zh","Radical_eg",即"字符英文表示","字符中文表示","包含部件数","字符结构英文表示","字符结构中文表示","部件中文表示","部件英文表示";
2)构建实例
I构建所有字符实例,为每个字符实例添加属性"Character_eg","Character_zh","Radical_all_num","Structure_eg","Structure_zh";
II构建所有部件实例,为每个部件实例添加属性"Radical_zh","Radical_eg"";
III构建字符与部件关系,将字符实例与字符包括的部件实例建立"包含"关系;
步骤6:根据步骤2、步骤3、步骤4和步骤5,生成包含完整部件的甲骨文文字的矢量图;
步骤7:根据步骤6得到的矢量图表示的最终文字结果,以ttf形式输出现代汉语立定字的字体。
进一步,所述基于yolov4改进的目标检测模型是通过yolov4网络结构中的主干特征提取网络提取甲骨文图片当中的部件,且主干特征提取网络是通过对yolov4算法中的CSPDarknet53网络用MobileNet网络进行替换生成的。
进一步,所述文字结构包括“独体字”,“上下结构”,“左右结构”,“包围结构”,“半包围-左上右下”,“半包围-左下右上”,“左中右结构”,“上中下结构”,“左右结构-上下结构”,“上下结构-左右结构”,“包围结构-上下结构”,“品字结构”,“上下结构-品字结构”和“镶嵌结构”。
进一步,所述文字结构的判别方式如下:
1)独体字
仅检测到1个部件时,输出文字结构为独体字;
2)上下结构
文字包括部件A和部件B,部件A和部件B呈上下布置,且部件A位于B部件上方,部件之间满足如下关系:
Figure BDA0003374240830000041
3)左右结构
文字包括部件A和部件B,部件A和部件B呈左右布置,且部件A位于部件B左侧,部件之间满足如下关系:
Figure BDA0003374240830000042
4)包围结构
文字包括部件A和部件B,部件A设置在部件B内部,部件之间满足如下关系:
Figure BDA0003374240830000043
5)半包围-左上右下结构
文字包括部件A和部件B,部件A位于部件B的左上方,部件A相对于部件B处在文字的左上位置,部件B相对与部件A处在文字的右下位置,部件之间满足如下关系:
Figure BDA0003374240830000051
6)半包围-左下右上结构
文字包括部件A和部件B,部件A相对于部件B处在文字的左下位置,部件B相对与部件A处在文字的右上位置,部件之间满足如下关系:
Figure BDA0003374240830000052
7)左中右结构
文字包括部件A、部件B和部件C,部件A、部件B和部件C依次从左向右布置,部件之间满足如下关系:
Figure BDA0003374240830000061
8)上中下结构
文字包括部件A、部件B和部件C,部件A、部件B和部件C依次从上到下布置,部件之间满足如下关系:
Figure BDA0003374240830000062
9)左右-上下结构
文字包括部件A、部件B和部件C三个部件,且部件B和部件C呈上下布置,部件B和部件C整体位于部件A的右侧,部件之间满足如下关系:
Figure BDA0003374240830000071
10)上下-左右结构
文字包括部件A、部件B和部件C三个部件,且部件A和部件B呈上下布置,部件A和部件B整体位于部件C的左侧,部件之间满足如下关系:
Figure BDA0003374240830000081
其中,xa和ya分别为部件A的中心点的横坐标和纵坐标,xb和yb分别为部件B的中心点的横坐标和纵坐标,xa1和ya1分别为部件A左上角的横坐标和纵坐标,xa2和ya2分别为部件A右下角的横坐标和纵坐标,xb1和yb1分别为部件B左上角的横坐标和纵坐标,xb2和yb2分别为部件B右下角的横坐标和纵坐标,xc和yc分别为部件C的中心点的横坐标和纵坐标,xc1和yc1分别为部件C的左上角的横坐标和纵坐标,xc2和yc2分别为部件C的右下角的横坐标和纵坐标;OA为部件A与部件B的重叠面积,SA和SB分别为部件A的面积和部件B的面积。
进一步,所述的甲骨文字体构建方法,其特征在于:在步骤6中,所述根据步骤2、步骤3、步骤4和步骤5生成包含完整部件的甲骨文文字的矢量图的过程如下:
将识别出的部件和位置结构信息通过所述基于yolov4改进的目标检测模型和部件位置关系推理模型,获得包含的具体部件与部件位置结构关系,并在甲骨文文字与部件的知识图谱当中进行查找,若查找到包含相同信息的字符则输出此对应字符已经造好的字形;若未找到,则创建新字,并将新的字的部件信息与位置结构信息存储到甲骨文文字与部件的知识图谱中;
对于知识库当中不存在的字,则通过步骤2中的文字表达式和步骤3当中预设的部件矢量图进行造字;首先根据文字表达式提供的部件位置关系信息选取对应的部件结构框,之后根据文字表达式中包含的部件选取相应的部件矢量图,再把部件矢量图根据文字表达式中所表示的位置放入到部件结构框预设的相应位置中。
进一步,所述的甲骨文字体构建方法,其特征在于:在步骤7中,所述根据步骤6得到的矢量图表示的最终文字结果,以ttf形式输出现代汉语立定字的字体的过程如下:在文字生成中,首先自动对网页的文字部分进行图片保存,之后再将图片自动化转成为一个整体的矢量图数据保存下来,转换方法与制作部件的矢量图库时生成矢量图的方法一致,将这个新的矢量图路径<path>续写到包含其他所有字体的svg文件中的<font>标签下的<glyph>中,再将写好的svg文件转化成ttf文件,完成新建字体。
通过上述设计方案,本发明可以带来如下有益效果:本发明提出了一种甲骨文字体构建方法,首先对于甲骨文的图片利用改进的目标检测模型提取出部件;接着通过构建的系统将甲骨文部件图片转换为现代汉语的部件的矢量图;利用古文字识别模型识别出文字并通过知识图谱获取该文字的结构;最后利用现代汉语部件的矢量图和已知的字体结构组合成甲骨文的现代汉语的矢量图,再经过微调之后生成甲骨文的现代汉语的立定字的字体。本发明可以实现对于古文字拓片进行高准确率的识别和智能分析,实现了对于知识库当中已有的古文字或者新的古文字拓片进行字体生成,对于古文字造字具有重要的指导意义,方便古文字学者进行古文字的探索。
附图说明
结合附图并参考以下具体实施方式,本发明公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制:
图1为甲骨文字体构建方法流程图;
图2为本发明实施例中文字结构示意图;
图3为本发明实施例中文字结构部件A和部件B两个部件,两个部件的坐标关系图;
图4为本发明实施例中两种实体的关系图;
图5为本发明实施例中文字生成后的初始结构效果图;
图6为本发明实施例中文字生成后的初始结构微调后的效果图。
具体实施方式
如图1所示,一种甲骨文字体构建方法,包括如下步骤:
第一步:对甲骨文的图片进行预处理,预处理过程包括图片大小调整、色域变换和图片垂直翻转;
第二步:将甲骨文图片输入到基于yolov4改进的部件目标检测模型中,识别出甲骨文图片中包含的部件和每个部件在甲骨文图片中所在的位置。
第三步:根据从第二步甲骨文图片识别中识别出的部件,以及每个部件在甲骨文图片中所在的位置,对这些部件进行位置关系推理,得到部件间位置关系,例如左右结构或上下结构;
第四步:构建甲骨文部件的矢量图库;所使用的甲骨文部件图片由吉林大学考古学院提供,使用imgToSvg()函数将所述已有的甲骨文部件图片转换为现代汉语的部件的矢量图;生成矢量图后,将甲骨文图片中的字,以及由所述甲骨文图片生成的矢量图文件中<path>标签的"d"属性中的数据保存至数据库中;
第五步:构建甲骨文文字与部件的知识图谱
1、定义甲骨文知识图谱本体
I定义文字类与部件类:在本体模型中,先定义总的两大类,即文字类和部件类。然后在文字类下添加所有在文字表格数据中的具体的文字子类,并以"Character_eg",即"英文字符表示"作为每个文字子类的类名。同样,在部件类下添加所有在部件表格数据中的具体的部件子类,并以"Radical_eg",即"英文部件表示"作为每个部件子类的类名。
II定义类之间的关系:文字与部件的关系为文字包含部件,因此定义文字和部件的关系为“包含”。
III定义本体中,类拥有的属性,包括"Character_eg","Character_zh","Radical_all_num","Structure_eg","Structure_zh","Radical_zh","Radical_eg",即"字符英文表示","字符中文表示","包含部件数","字符结构英文表示","字符结构中文表示","部件中文表示","部件英文表示"。
2、构建实例
I构建所有字符实例,为每个字符实例添加属性"Character_eg","Character_zh","Radical_all_num","Structure_eg","Structure_zh"。
II构建所有部件实例,为每个部件实例添加属性"Radical_zh","Radical_eg"。
III构建字符与部件关系,将字符实例与字符包括的部件实例建立"包含"关系;
第六步:根据第二步识别出的部件、第三步的文字结构推理,第四步的矢量图库、第五步的甲骨文文字与部件的知识图谱,生成包含完整部件的甲骨文的矢量图;
第七步:造字者可以根据自身对字形结构的理解,进而修正并微调字体结构;
第八步:根据第七步得到的矢量图表示的最终文字结果,以ttf形式输出现代汉语立定字的字体。
下面将参照附图和说明书中的步骤更详细地描述本发明公开的实施例。虽然附图中显示了本发明的某些实施例,然而应当理解的是,本发明可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是,本发明的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
1、本发明在图像预处理过程中,对甲骨文图片进行图片大小调整、色域变换和图片翻转。在大小调整中,先随机设置大小调整倍率,然后使用resize()函数,对图片进行大小调整;在色域变换中,使用cvtColor()函数,调整图片色域;在图片翻转中,使用transpose()函数,将图片进行左右翻转。并且为了让部件识别模型(即本发明中的基于yolov4改进的目标检测模型)在复杂结构中能准确识别出部件,本发明还对每个组成甲骨文的部件(部件是组成甲骨文字型的基本单位)进行提取,即将部件从原古文字图片上截取下来,再通过对不同的部件在一个固定大小500*500px的背景板上进行左右位置摆放,上下位置摆放以及随机位置摆放,从而扩充数据集。
2、使用mobilenet3网络代替yolov4当中的CSPdarknet53进行特征提取,在特征提取后,基于yolov4改进的目标检测模型会根据已训练好的参数来判断图片中每个区域中是否有部件出现,进而识别出甲骨文图片中的部件以及在图片中的所在位置。
3、根据部件识别结果,生成部件位置关系。这时可以根据部件与结构,生成对应的文字表达式,表达式中体现出包含的部件与部件之间的位置关系。
文字结构的设计包括14种,详见图2,图中从左至右、上至下的顺序,分别为“独体字”,“上下结构”,“左右结构”,“包围结构”,“半包围-左上右下”,“半包围-左下右上”,“左中右结构”,“上中下结构”,“左右结构-上下结构”,“上下结构-左右结构”,“包围结构-上下结构”(例如“闾”字,外面“门”字包围,里面两个“口”为上下结构),“品字结构”(例如“品”字,三个“口”的位置关系呈三角形),“上下结构-品字结构”(例如“桑”字,上面为“叒”的品字结构,其整体和“木”又构成上下结构)和“镶嵌结构”(例如
Figure BDA0003374240830000121
字,左右两个“口”写在“王”的第一个横和第二个横之间,且在“王”字的内部,而非两侧)。
针对上述多种位置结构,本发明做了一些基础结构:包围结构,左右结构和上下结构;
这些基础结构可以根据各种组合方式来描述更复杂的文字结构。
例如,“树”,这种左中右结构的字,可以以左右结构为基础,但把左部分或者右部分嵌套一个左右结构,即可变成左中右结构;
例如,“满”,这种左右-上下结构的字,可以以左右结构为基础,之后再把右部分嵌套一个上下结构,即可变成左右-上下结构。
如图3所示,对于部件A和部件B两个部件:
wa=|xa2-xa1|
ha=|ya2-ya1|
wb=|xb2-xb1|
hb=|yb2-yb1|
Figure BDA0003374240830000131
Figure BDA0003374240830000132
SA=wa*ha=|xa2-xa1|*|ya2-ya1|
SB=wb*hb=|xb2-xb1|*|yb2-yb1|
计算两个部件的重叠矩形的左上角、右下角坐标:
(xa3,ya3)=(min(xa1,xa2),min(ya1,ya2))
(xa4,ya4)=(max(xa1,xa2),max(ya1,ya2))
(xb3,yb3)=(min(xb1,xb2),min(yb1,yb2))
(xb4,yb4)=(max(xb1,xb2),max(yb1,yb2))
计算两个部件的重叠矩形面积:
如果(xa4<=xb3 or xb4<=xa3 and(ya4<=yb3 or yb4<=ya3):OA=0
否则:
w0=min(xa4,xb4)-max(xa3,xb3)
h0=min(ya4,yb4)-max(ya3,yb3)
OA=w0*h0
其中,xa和ya分别为部件A的中心点的横坐标和纵坐标,xb和yb分别为部件B的中心点的横坐标和纵坐标,xa1和ya1分别为部件A左上角的横坐标和纵坐标,xa2和ya2分别为部件A右下角的横坐标和纵坐标,xb1和yb1分别为部件B左上角的横坐标和纵坐标,xb2和yb2分别为部件B右下角的横坐标和纵坐标,xa3和ya3分别为部件A与部件B重叠矩形的左上角的横坐标和纵坐标,xa4和ya4分别为部件A与部件B重叠矩形的右下角的横坐标和纵坐标;wa和ha分别为部件A的宽和高,wb和hb分别为部件B的宽和高,w0和h0分别为部件A与部件B重叠区域矩形的宽和高;OA为部件A与部件B的重叠面积,SA和SB分别为部件A的面积和部件B的面积。
关于文字结构的判断公式:详见图3。
1)Single(独体字)
仅检测到1个部件时,输出文字结构为single(独体字)
2)上下结构(Up-down)
文字包括部件A和部件B,部件A和部件B呈上下布置,且部件A位于B部件上方,部件之间满足如下关系:
Figure BDA0003374240830000151
3)左右结构(Left-right)
文字包括部件A和部件B,部件A和部件B呈左右布置,且部件A位于部件B左侧,部件之间满足如下关系:
Figure BDA0003374240830000152
4)包围结构(Surround)
文字包括部件A和部件B,部件A设置在部件B内部,部件之间满足如下关系:
Figure BDA0003374240830000153
5)半包围-左上右下结构(Semi-surround-ULLR)
文字包括部件A和部件B,部件A与部件B的相对位置关系为半包围-左上右下结构;部件A位于部件B的左上方,部件A相对于部件B处在文字的左上位置,部件B相对与部件A处在文字的右下位置,部件之间满足如下关系:
Figure BDA0003374240830000161
6)半包围-左下右上结构(Semi-surround-LLUR)
文字包括部件A和部件B,部件A与部件B的相对位置关系为半包围-左下右上结构;部件A相对于部件B处在文字的左下位置,部件B相对与部件A处在文字的右上位置,部件之间满足如下关系:
Figure BDA0003374240830000162
7)左中右结构(Left-medium-right)
文字包括部件A、部件B和部件C,部件A、部件B和部件C依次从左向右布置,部件之间满足如下关系:
Figure BDA0003374240830000171
8)上中下结构(Up-medium-down)
文字包括部件A、部件B和部件C,部件A、部件B和部件C依次从上到下布置,部件之间满足如下关系:
Figure BDA0003374240830000172
9)左右-上下结构(Left-right-up-down)
文字包括部件A、部件B和部件C三个部件,且部件B和部件C呈上下布置,部件B和部件C整体位于部件A的右侧,部件之间满足如下关系:
Figure BDA0003374240830000181
10)上下-左右结构(Left-right-up-down)
文字包括部件A、部件B和部件C三个部件,且部件A和部件B呈上下布置,部件B和部件C整体位于部件C的左侧,部件之间满足如下关系:
Figure BDA0003374240830000191
其中,xa和ya分别为部件A的中心点的横坐标和纵坐标,xb和yb分别为部件B的中心点的横坐标和纵坐标,xa1和ya1分别为部件A左上角的横坐标和纵坐标,xa2和ya2分别为部件A右下角的横坐标和纵坐标,xb1和yb1分别为部件B左上角的横坐标和纵坐标,xb2和yb2分别为部件B右下角的横坐标和纵坐标,xc和yc分别为部件C的中心点的横坐标和纵坐标,xc1和yc1分别为部件C的左上角的横坐标和纵坐标,xc2和yc2分别为部件C的右下角的横坐标和纵坐标;OA为部件A与部件B的重叠面积,SA和SB分别为部件A的面积和部件B的面积。
这里以“满”字为例,属于Left-right-up-down结构,则可以生成文字表达式:“09氵艹两”。前面数字代表结构编号,第九种结构,后面的部件为结构图中部件序号A、B、C的顺序,此处部件A为“氵”,部件B为“艹”,部件C为“两”。
4、构建甲骨文部件矢量图库所使用的甲骨文部件图片由考古学院提供。先将预设好的甲骨文部件的现代汉语图片转换为矢量图存储在数据库中。对每一个部件都进行挑选,选出符合标准写法的部件图片,若有的部件图片都不符合要求,则必要的时候可以进行人工绘制。这里生成部件矢量图是为后续文字生成做准备工作。
Figure BDA0003374240830000204
为“艹”的png格式;
Figure BDA0003374240830000203
为“艹”的svg格式
5、在构建构建甲骨文文字与部件的知识图谱中,包括以下几个步骤
I本发明的数据来源是从吉林大学考古学院获取,将获取的数据进行结构化处理,使每个字符都包含"Character_eg","Character_zh","Radical_all_num","Structure_eg","Structure_zh"属性,即"字符英文表示","字符中文表示","包含部件数","字符结构英文表示","字符结构中文表示",部件包含"Radical_zh","Radical_eg"属性,即"部件中文表示","部件英文表示"。具体数据如下表所示。
Figure BDA0003374240830000201
II定义实体
两种实体,关系及其各自对应的描述
Figure BDA0003374240830000202
Figure BDA0003374240830000211
两种实体的关系图,详见图4。
III使用JAVA语言构建知识图谱。
1、定义甲骨文文字知识图谱本体
I定义文字类与部件类。在本体模型中,先定义总的两大类,即字符类和部件类。然后在字符类下添加所有在字符表格数据中的具体的字符子类,并以"Character_eg",即"英文字符表示"作为每个字符子类的名字。同样,在部件类下添加所有在部件表格数据中的具体的部件实例,并以"Radical_eg",即"英文部件表示"作为每个部件子类的名字。
II定义类之间的关系。字符与部件的关系为字符包含部件,因此定义字符和部件的关系为“包含”。
III定义本体中,类拥有的属性。包括"Character_eg","Character_zh","Radical_all_num","Structure_eg","Structure_zh","Radical_zh","Radical_eg",即"字符英文表示","字符中文表示","包含部件数","字符结构英文表示","字符结构中文表示","部件中文表示","部件英文表示"。
2、构建实例
I构建所有字符实例,为每个字符实例添加属性"Character_eg","Character_zh","Radical_all_num","Structure_eg","Structure_zh"。
II构建所有部件实例,为每个部件实例添加属性"Radical_zh","Radical_eg"。
III构建字符与部件关系,将字符实例与字符包括的部件实例建立"包含"关系。
6、将识别出的部件和位置结构信息通过前文构建的改进的yolov4目标检测模型与位置关系推理模型,可以获得包含的具体部件与部件位置结构关系。到知识图谱当中进行查找,若查找到包含相同信息的字符则输出此对应字符已经造好的字形;若未找到,则创建新字,并将新的字的部件信息与位置结构信息存储到知识图谱中。
对于知识库当中不存在的字,则通过步骤2中的文字表达式和步骤3当中预设的部件矢量图进行造字。首先根据文字表达式提供的部件位置关系信息选取对应的部件结构框,之后根据文字表达式中包含的部件选取相应的部件矢量图,再把部件矢量图根据文字表达式中所表示的位置放入到部件结构框预设的相应位置中。
Figure BDA0003374240830000221
字为例,得到的文字表达式输入为“09女頁刀”。此时根据表达式前两个字符得知文字结构为左右-上下,根据后三个字符可知,“女”字应在左边预设框中,“頁”在右上角预设框中,“刀”在右下角预设框中。根据预设好的三个位置,对相应部件进行比例放缩与偏移,部件矢量图初始长宽统一为x,设左上角为坐标原点(0,0),坐标中第一个数字表示距离原点的水平距离,第二个数字表示距离原点的垂直距离。
在此例中,需要对“女”进行y轴拉长,使其高度为原来的二倍,距离原点偏移量为(0,0),放置到左边预设框中。
对“頁”则大小不需要改变,距离原点偏移量为(x,0),放置到右上角预设框中。
对“刀”也不需要大小改变,距离原点偏移量为(x,x),放置到右下角预设框。
生成后的初始结构如图5所示。
7、造字程序使用者可以根据自己的理解,对预设好的部件矢量图位置进行进一步修改,包括对部件矢量图的平移、旋转、放缩。当用户调整完后再进行提交生成相应文字。例如下图,对“刀”字进行顺时针90度旋转,对“女”字进行水平缩小,如图6所示。
8、在文字生成中,首先自动对网页的文字部分进行图片保存,之后再将图片自动化转成为一个整体的矢量图数据保存下来,转换方法与前文制作矢量图库时生成矢量图的方法一致。将这个新的矢量图路径<path>续写到包含其他所有字体的svg文件中的<font>标签下的<glyph>中,再将写好的svg文件转化成ttf文件,完成新建字体。

Claims (6)

1.一种甲骨文字体构建方法,其特征在于,包括如下步骤:
步骤1:收集甲骨文图片,并对所述甲骨文图片进行预处理,所述预处理过程包括图片大小调整、色域变换和图片垂直翻转;
步骤2:将甲骨文图片输入到基于yolov4改进的部件目标检测模型中,识别出甲骨文图片中包含的部件和每个部件在甲骨文图片中所在的位置;
步骤3:构建部件位置关系推理模型,根据步骤2中从甲骨文图片识别出的构成甲骨文文字的部件,以及每个部件在甲骨文图片中所在的位置,生成部件间位置关系;具体根据部件与文字结构,生成对应的文字表达式,文字表达式用于体现甲骨文文字中包含的部件与部件之间的位置关系信息;文字表达式的格式为:数字+部件,数字代表预先设定的文字结构编号,部件数量至少一个,当具有两个及两个以上的部件时,文字表达式中部件前后排列顺序是按照文字结构中部件序号的先后顺序排列的,且文字结构中部件的序号是按照从左到右、从上到下、从内到外顺序进行编号;
步骤4:构建甲骨文部件的矢量图库;根据已有的甲骨文部件图片,使用imgToSvg()函数将所述甲骨文部件图片转换为现代汉语的部件的矢量图;生成矢量图后,将甲骨文图片中的字,以及由所述甲骨文图片生成的矢量图文件中<path>标签的"d"属性中的数据保存至数据库中;
步骤5:构建甲骨文文字与部件的知识图谱
1)定义甲骨文知识图谱本体
I首先定义文字类与部件类,然后在文字类下添加所有在文字表格数据中的具体的文字子类,并以"Character_eg",即"字符英文表示"作为每个文字子类的类名;同样,在部件类下添加所有在部件表格数据中的具体的部件子类,并以"Radical_eg",即"部件英文表示"作为每个部件子类的类名;
II定义类之间的关系
文字与部件的关系为文字包含部件,因此定义文字和部件的关系为“包含”;
III定义本体中,类拥有的属性,包括"Character_eg","Character_zh","Radical_all_num","Structure_eg","Structure_zh","Radical_zh","Radical_eg",即"字符英文表示","字符中文表示","包含部件数","字符结构英文表示","字符结构中文表示","部件中文表示","部件英文表示";
2)构建实例
I构建所有字符实例,为每个字符实例添加属性"Character_eg","Character_zh","Radical_all_num","Structure_eg","Structure_zh";
II构建所有部件实例,为每个部件实例添加属性"Radical_zh","Radical_eg";
III构建字符与部件关系,将字符实例与字符包括的部件实例建立"包含"关系;
步骤6:根据步骤2、步骤3、步骤4和步骤5,生成包含完整部件的甲骨文文字的矢量图;
步骤7:根据步骤6得到的矢量图表示的最终文字结果,以ttf形式输出现代汉语立定字的字体。
2.根据权利要求1所述的甲骨文字体构建方法,其特征在于:所述基于yolov4改进的目标检测模型是通过yolov4网络结构中的主干特征提取网络提取甲骨文图片当中的部件,且主干特征提取网络是通过对yolov4算法中的CSPDarknet53网络用MobileNet网络进行替换生成的。
3.根据权利要求1所述的甲骨文字体构建方法,其特征在于:所述文字结构包括“独体字”,“上下结构”,“左右结构”,“包围结构”,“半包围-左上右下”,“半包围-左下右上”,“左中右结构”,“上中下结构”,“左右结构-上下结构”,“上下结构-左右结构”,“包围结构-上下结构”,“品字结构”,“上下结构-品字结构”和“镶嵌结构”。
4.根据权利要求1或3所述的甲骨文字体构建方法,其特征在于:所述文字结构的判别方式如下:
1)独体字
仅检测到1个部件时,输出文字结构为独体字;
2)上下结构
文字包括部件A和部件B,部件A和部件B呈上下布置,且部件A位于B部件上方,部件之间满足如下关系:
Figure FDA0003374240820000031
3)左右结构
文字包括部件A和部件B,部件A和部件B呈左右布置,且部件A位于部件B左侧,部件之间满足如下关系:
Figure FDA0003374240820000032
4)包围结构
文字包括部件A和部件B,部件A设置在部件B内部,部件之间满足如下关系:
Figure FDA0003374240820000041
5)半包围-左上右下结构
文字包括部件A和部件B,部件A位于部件B的左上方,部件A相对于部件B处在文字的左上位置,部件B相对与部件A处在文字的右下位置,部件之间满足如下关系:
Figure FDA0003374240820000042
6)半包围-左下右上结构
文字包括部件A和部件B,部件A相对于部件B处在文字的左下位置,部件B相对与部件A处在文字的右上位置,部件之间满足如下关系:
Figure FDA0003374240820000051
7)左中右结构
文字包括部件A、部件B和部件C,部件A、部件B和部件C依次从左向右布置,部件之间满足如下关系:
Figure FDA0003374240820000052
8)上中下结构
文字包括部件A、部件B和部件C,部件A、部件B和部件C依次从上到下布置,部件之间满足如下关系:
Figure FDA0003374240820000061
9)左右-上下结构
文字包括部件A、部件B和部件C三个部件,且部件B和部件C呈上下布置,部件B和部件C整体位于部件A的右侧,部件之间满足如下关系:
Figure FDA0003374240820000062
10)上下-左右结构
文字包括部件A、部件B和部件C三个部件,且部件A和部件B呈上下布置,部件A和部件B整体位于部件C的左侧,部件之间满足如下关系:
Figure FDA0003374240820000071
其中,xa和ya分别为部件A的中心点的横坐标和纵坐标,xb和yb分别为部件B的中心点的横坐标和纵坐标,xa1和ya1分别为部件A左上角的横坐标和纵坐标,xa2和ya2分别为部件A右下角的横坐标和纵坐标,xb1和yb1分别为部件B左上角的横坐标和纵坐标,xb2和yb2分别为部件B右下角的横坐标和纵坐标,xc和yc分别为部件C的中心点的横坐标和纵坐标,xc1和yc1分别为部件C的左上角的横坐标和纵坐标,xc2和yc2分别为部件C的右下角的横坐标和纵坐标;OA为部件A与部件B的重叠面积,SA和SB分别为部件A的面积和部件B的面积。
5.根据权利要求1所述的甲骨文字体构建方法,其特征在于:在步骤6中,所述根据步骤2、步骤3、步骤4和步骤5生成包含完整部件的甲骨文文字的矢量图的过程如下:
将识别出的部件和位置结构信息通过所述基于yolov4改进的目标检测模型和部件位置关系推理模型,获得包含的具体部件与部件位置结构关系,并在甲骨文文字与部件的知识图谱当中进行查找,若查找到包含相同信息的字符则输出此对应字符已经造好的字形;若未找到,则创建新字,并将新的字的部件信息与位置结构信息存储到甲骨文文字与部件的知识图谱中;
对于知识库当中不存在的字,则通过步骤2中的文字表达式和步骤3当中预设的部件矢量图进行造字;首先根据文字表达式提供的部件位置关系信息选取对应的部件结构框,之后根据文字表达式中包含的部件选取相应的部件矢量图,再把部件矢量图根据文字表达式中所表示的位置放入到部件结构框预设的相应位置中。
6.根据权利要求1所述的甲骨文字体构建方法,其特征在于:在步骤7中,所述根据步骤6得到的矢量图表示的最终文字结果,以ttf形式输出现代汉语立定字的字体的过程如下:在文字生成中,首先自动对网页的文字部分进行图片保存,之后再将图片自动化转成为一个整体的矢量图数据保存下来,转换方法与制作部件的矢量图库时生成矢量图的方法一致,将这个新的矢量图路径<path>续写到包含其他所有字体的svg文件中的<font>标签下的<glyph>中,再将写好的svg文件转化成ttf文件,完成新建字体。
CN202111412993.XA 2021-11-25 2021-11-25 一种甲骨文字体构建方法 Active CN114067331B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111412993.XA CN114067331B (zh) 2021-11-25 2021-11-25 一种甲骨文字体构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111412993.XA CN114067331B (zh) 2021-11-25 2021-11-25 一种甲骨文字体构建方法

Publications (2)

Publication Number Publication Date
CN114067331A true CN114067331A (zh) 2022-02-18
CN114067331B CN114067331B (zh) 2022-09-06

Family

ID=80276185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111412993.XA Active CN114067331B (zh) 2021-11-25 2021-11-25 一种甲骨文字体构建方法

Country Status (1)

Country Link
CN (1) CN114067331B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4965458A (en) * 1988-08-10 1990-10-23 Telecommunication Laboratories, Directorate General of Telecommunications , Ministry of Communications Apparatus for translating oracle-bone scripture into a more formal language
CN108509587A (zh) * 2018-03-29 2018-09-07 浙江师范大学 查询甲骨文拓图及其原文与释文的数据库建设及检索方法
CN109829006A (zh) * 2019-01-14 2019-05-31 安阳师范学院 一种甲骨文基础数据管理及智能知识服务平台及建设方法
CN111539437A (zh) * 2020-04-27 2020-08-14 西南大学 基于深度学习的甲骨文偏旁的检测与识别方法
CN111915540A (zh) * 2020-06-17 2020-11-10 华南理工大学 拓片甲骨文字符图像增广方法、系统、计算机设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4965458A (en) * 1988-08-10 1990-10-23 Telecommunication Laboratories, Directorate General of Telecommunications , Ministry of Communications Apparatus for translating oracle-bone scripture into a more formal language
CN108509587A (zh) * 2018-03-29 2018-09-07 浙江师范大学 查询甲骨文拓图及其原文与释文的数据库建设及检索方法
CN109829006A (zh) * 2019-01-14 2019-05-31 安阳师范学院 一种甲骨文基础数据管理及智能知识服务平台及建设方法
CN111539437A (zh) * 2020-04-27 2020-08-14 西南大学 基于深度学习的甲骨文偏旁的检测与识别方法
CN111915540A (zh) * 2020-06-17 2020-11-10 华南理工大学 拓片甲骨文字符图像增广方法、系统、计算机设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘运通等: "基于刻辞网络关联度的甲骨字考释难度量化方法", 《科学技术与工程》 *
李文英 等: "一种基于深度学习的青铜器铭文识别方法", 《自动化学报》 *

Also Published As

Publication number Publication date
CN114067331B (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
Yao et al. Introduction to a large-scale general purpose ground truth database: methodology, annotation tool and benchmarks
CN109871851B (zh) 一种基于卷积神经网络算法的汉字书写规范性判定方法
CN110751137A (zh) 一种自动求解数学题的方法和系统
US20070003147A1 (en) Grammatical parsing of document visual structures
CN100583135C (zh) 一种汉字书写形态美观度的计算机评估方法
Zong et al. Strokebank: Automating personalized chinese handwriting generation
Sun et al. Aesthetic Visual Quality Evaluation of Chinese Handwritings.
CN107092917A (zh) 一种基于流形学习的汉字笔画自动提取方法
EP2110758B1 (en) Searching method based on layout information
CN114092700B (zh) 基于目标检测和知识图谱的古文字识别方法
Shilman et al. Learning nongenerative grammatical models for document analysis
CN107680154A (zh) 基于视图的体素几何参数提取方法
CN112784531A (zh) 一种基于深度学习和部件拼接的中文字形及字库生成方法
CN105930497A (zh) 基于图像边缘和线条特征的三维模型检索方法
CN113392244A (zh) 一种基于深度度量学习的三维模型检索方法及系统
CN115393872A (zh) 一种训练文本分类模型的方法、装置、设备及存储介质
CN114821620A (zh) 基于行文本框纵向合并的文本内容提取识别方法
CN114067331B (zh) 一种甲骨文字体构建方法
CN117496521A (zh) 一种表格关键信息抽取方法、系统、装置及可读存储介质
CN116311281A (zh) 一种基于生成对抗网络的手写字体纠正系统
CN114550179B (zh) 对手写汉字黑板板书进行指导的方法、系统及设备
CN114580429A (zh) 一种基于人工智能的语言和图像理解集成服务系统
Zeng et al. Zero-Shot Chinese Character Recognition with Stroke-and Radical-Level Decompositions
Sun et al. Computing Irregular Component Spacing of Digital Ink Chinese Characters Handwritten by Junior International Students
CN117472257B (zh) 一种基于ai算法的自动转正楷的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant