CN112329389B - 一种基于语义分割与禁忌搜索的汉字笔画自动提取方法 - Google Patents

一种基于语义分割与禁忌搜索的汉字笔画自动提取方法 Download PDF

Info

Publication number
CN112329389B
CN112329389B CN201910697693.7A CN201910697693A CN112329389B CN 112329389 B CN112329389 B CN 112329389B CN 201910697693 A CN201910697693 A CN 201910697693A CN 112329389 B CN112329389 B CN 112329389B
Authority
CN
China
Prior art keywords
stroke
category
chinese character
semantic segmentation
strokes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910697693.7A
Other languages
English (en)
Other versions
CN112329389A (zh
Inventor
连宙辉
王文光
唐英敏
肖建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201910697693.7A priority Critical patent/CN112329389B/zh
Publication of CN112329389A publication Critical patent/CN112329389A/zh
Application granted granted Critical
Publication of CN112329389B publication Critical patent/CN112329389B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • G06V30/2268Character recognition characterised by the type of writing of cursive writing using stroke segmentation

Abstract

本发明公布了一种基于语义分割与禁忌搜索的汉字笔画自动提取方法,过针对汉字特点改进的语义分割模型获得笔画分割图,再通过连通域分析从笔画分割图中获取独立笔画,最后通过禁忌搜索算法获取笔画笔顺信息。本发明采用语义分割技术从二值汉字图片中提取笔画分割图,避免了基于图形学方法鲁棒性差,耗时长的问题,同时也提升了分割效果,能够显著提高这些汉字处理与应用的开发效率,降低开发成本。

Description

一种基于语义分割与禁忌搜索的汉字笔画自动提取方法
技术领域
本发明涉及将人工智能、智能优化应用于汉字处理技术领域,具体涉及一种基于语义分割与禁忌搜索的面向汉字的笔画自动提取方法,包括使用语义分割技术提取笔画分割图,从笔画分割图中提取独立笔画,以及根据模板对独立笔画进行笔顺排序。
背景技术
汉字是现在世界上使用人数最多的文字,作为信息载体,传承了中华上下五千年的文化。笔画是组成汉字的最小基本单位,汉字字形切分又被称为汉字笔画提取。笔画提取已经成为中文字库自动生成、笔迹鉴别、书法美观评价、手写字库合成字形设计的关键技术。但是现有传统的笔画提取方法,依赖于耗时却不精确的在目标图片与参考图片的相关性匹配,精度不够高,速度不够快。
根据是否有先验知识,现有的笔画提取方法包括两类:无模型指导和有模型指导方法。1)无模型指导方法:大部分无模型指导方法直接根据汉字图片的轮廓、角点等特征计算笔画连接,不依赖参考模板字库。这种方法准确度依赖于规则的完整度,而且这些方法一般只适用于提取基本笔画(如横竖撇捺等),对于复杂的组合笔画可能会被分割成多个基本笔画的组合,如“横折折”被分解为两个横和一个竖的组合。2)有模型指导方法:为了解决无法分割复杂组合笔画的问题,有模型指导方法被提出。这种方法普遍特征是需要预先将一套标准字体字库提取笔画,作为参考模板。然后先对测试字符使用细化算法,再利用形状匹配算法将测试字符与模板字库对应字符进行匹配计算得到笔画提取结果。然而匹配算法计算繁杂,时间复杂度高,对一张300*300的汉字图片,提取笔画需要20-30s。但是有模型指导方法只有在目标字体与相应的参考字体比较相似时才会得到一个较好的结果,通用性不够高。而且,基于图形学的方法鲁棒性不够,经常会有些位置错误,导致拆分结果崩溃。
语义分割技术可以部分解决以上问题。现有传统的语义分割技术依赖于人工精心提取的特征和分类器。随着深度学习发展,多种基于深度学习的模型被用于语义分割。LongJ(Long J,Shelhamer E,Darrell T.Fully convolutional networks for semanticsegmentation[C]//Proceedings of the IEEE conference on computer vision andpattern recognition.2015:3431-3440.)提出的全卷积网络(FCNs)是目前最为流行的语义分割模型框架。全卷积网络在解决语义分割问题上效果良好,同时网络能够端对端训练,提供了巨大便利。另外全卷积网络能够利用gpu进行并行计算,运行效率高。但是,到目前为止,还没有将全卷积网络应用于笔画分割的相应技术,无法利用全卷积网络实现汉字笔画的自动提取。
发明内容
本发明的目的是提供一种基于深度学习的语义分割技术的汉字笔画自动提取方法,通过针对汉字特点改进的语义分割模型(对深度学习模型DeepLabV3+进行改进)获得笔画分割图,再通过连通域分析从笔画分割图中获取独立笔画,最后通过禁忌搜索算法获取笔画笔顺信息。本发明基于语义分割和禁忌搜索技术来重新设计解决笔画提取问题的框架,在获得更精确的结果的同时大大提高了提取笔画的速度。
本发明涉及的术语如下:
参考字:获取笔顺信息需要作为参考的楷体汉字图像,包含其每一个笔画的图像和位置,以及每一个笔画对应的笔顺;
目标汉字图片:用户输入的汉字图像(二值图);
字符编码:代表目标汉字的编码,取值范围1~6763;
笔画分割图:语义分割模型对输入图片预测的结果,即对图片每个像素点预测类别的结果。
类输入二值图:输入图片是二值图像(每个像素点的值为0或1),我们将目标汉字图片缩放到相应大小,就得到类输入二值图,他用于替换语义分割模型推断过程中概率图的通道0。
本发明的技术方案是:
一种基于语义分割与禁忌搜索的汉字笔画自动提取方法,通过针对汉字特点改进的语义分割模型获得笔画分割图,再通过连通域分析从笔画分割图中获取独立笔画,最后通过禁忌搜索算法获取笔画笔顺信息;包括如下步骤:
A输入目标汉字图片和该汉字的字符编码;
B.使用本发明改进的语义分割模型DeepStroke提取笔画分割图:
语义分割是计算机视觉三大任务(分类、检测、分割)之一。语义分割模型输入一张图片,输出这张图片上每一个像素点所对应的类别(如输入为室内场景的照片,输出即为该照片每个像素点所属的类别(可根据任务定义类别,如在自然场景任务,类别可以是猫、狗、天空、草地等;在本发明的笔画分割任务中,类别定义为:横、竖、撇、捺等35个类别),即语义分割图)。语义分割模型是神经网络的一种,构建语义任务包括数据集的构建,模型的设计和训练。
B1.针对目标汉字图片特点,基于已有的语义分割模型(如DeepLabV3+:LiangChieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,andHartwigAdam.2018.Encoder-Decoder with Atrous Separable Convolution forSemanticImage Segmentation.)构建本发明的主体模型:DeepStroke模型。
DeepStroke基于DeepLabV3+主要做了如下两点改进:1)相比原模型(输入只有图片),本发明增加一个输入:字符编码。它可以告诉模型输入的是哪个汉字,然后根据事先存储的汉字笔画列表储存每个汉字有哪些笔画,就可以得到输入汉字的笔画信息,再将笔画信息上采样与网络的特征图连接,上采样之后的笔画信息就能对模型输出做出笔画类别指导;2)在语义分割网络的推断阶段,将反映输出类别的概率图的通道1替换为类输入二值图,这样输出的语义图的前景(即笔画类别)和背景就能被百分之百正确区分。
B2.构建用于训练的数据集,对多个字体的6763个常用字图片的每个像素进行类别标注。标注的类别有35类,包括33个笔画类别,一个背景类别和一个‘交叉’类别(表示不同笔画的交叉区域)。
B3.在构建的训练数据集上训练DeepStroke模型。训练好的模型输入目标汉字图片和该汉字的字符编码就可以得到笔画分割图;
C.通过连通域分析,从笔画分割图提取不带笔顺信息的独立笔画;包括如下操作:
C1笔画类别编号记为i,取值为1到33,交叉类编号为34;令i等于1。
C2查询输入汉字笔画类别编号i的数量Ni,若Ni大于等于1,执行步骤C3。
C3合并笔画分割图的笔画类别编号i与交叉类类别编号(为34)的连通域,分别提取出像素数量最多的Ni个连通域。这Ni个连通域即为Ni个独立笔画(也就是笔画类别i)。令i自增1,若i<34,跳到C2;
D.利用禁忌搜索算法获取输入汉字的笔画顺序S。
S(S1,S2,…,Si,…,SN)是一个由整数1~N组成的数字序列,代表各个独立笔画的笔顺号,其中N为笔画数量。设置禁忌搜索的适应度方程为式(1):
其中,fitness为禁忌搜索的适应度;S为得到的笔顺数字序列,S是一个N维的列表,由1~N的N个整数按某种顺序排列得到。禁忌搜索所做的操作就是在每次迭代时通过调整N个整数的顺序,使得fitness尽量小,最终得到与参考字笔画笔顺最匹配的结果S;N是输入汉字拥有的笔画数量;λ是超参数,设置为较大的数(如取值为100)。表示第i个按S排序的独立笔画的类别;TRi表示第i个参考字笔画的类别;x=0时I(x)=0,x=1时I(x)=0。t代表T T[S]和TR之间笔画类别不一致的数量,/>代表第i个按S排序的独立笔画的重心坐标。
通过上述步骤,实现基于语义分割与禁忌搜索的汉字笔画的自动提取。
与现有技术相比,本发明的有益效果是:
本发明提供了一种基于语义分割技术与禁忌搜索的汉字笔画自动提取方法,用语义分割技术从二值汉字图片中提取笔画分割图,避免了基于图形学方法鲁棒性差,耗时长的问题,同时也提升了分割效果。将笔顺排序问题巧妙地转为TSP问题(travellingsalesman problem,旅行商问题),使得禁忌搜索可以自然的用于解决笔顺排序问题。由于很多有关中文汉字的应用都需要人工来提取笔画(如制作中文压缩字库),因此本发明提供的方法能够显著提高这些汉字处理与应用的开发效率,降低开发成本。
附图说明
图1是本发明实施例实施流程的示意图。
图2是本发明为笔画提取改进的语义分割模型DeepStroke的工作原理示意图;
图3是本发明实施例构造的训练数据集;
其中,每个子图的左边是用于输入的目标字二值图片,右边是标注图片;(a)为兰亭黑字体,(b)为黑隶简字体,(c)为书宋字体。
图4是利用禁忌搜索获得按笔画笔顺排列的独立笔画;
其中,(a)是输入的二值图;(b)是得到的按笔画笔顺排序的独立笔画图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,可以理解的是,所描述的实例仅仅是本发明的一部分实例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种基于语义分割技术与禁忌搜索的汉字笔画自动提取方法,方法流程如附图1和图2所示,具体实施例如下:
1)用户输入目标字和该目标字的字符编码,如图2中的“阿”和相应的字符编码为2。
2)训练DeepStroke模型,使用训练好的DeepStroke模型得到输入图片的笔画分割图,如图2中的输出;包括如下操作:
2-a)针对汉字图片特点,基于语义分割模型(FCNs(Fully convolutionalnetworks,全卷积网络)骨架网,如DeepLabV3+)构建DeepStroke模型。如图2所示,本发明主要做了如下两点改进:1)相比原模型,我们增加一个输入:汉字字符编码。它可以告诉模型输入的汉字编码是2,即‘阿’字。然后根据事先存储的汉字笔画表(反应每个汉字有哪些笔画),就可以得到笔画信息,这个信息就能对模型输出就有个笔画类别指导;2)我们在网络的推断阶段,将反应输出类别的概率图的通道1替换为输入汉字‘阿’的类输入二值图,这样输出的语义图的前景(笔画类别)和背景就能被百分之百正确区分。
2-b)构建用于训练的数据集,对多个字体的6763个常用字图片的每个像素进行类别标注。标注的类别有35类,包括33个笔画类别,一个背景类别和一个‘交叉’类别(表示不同笔画的交叉区域)。其中部分字体的部分标注图片和其原图展示在图片3中。
2-c)在构建的数据集上训练DeepStroke模型。训练好的模型输入的汉字二值图片和该汉字的字符编码就可以得到笔画分割图,笔画分割图如图2的‘输出’。
3)通过连通域分析从笔画分割图提取不带笔顺信息的独立笔画;
4)利用禁忌搜索算法获取笔画顺序S。S是一个有1-N组成的数字序列,代表各个独立笔画的笔顺号,其中N为笔画数量。如图4(b)即为汉字“去”的按笔画顺序排序的结果。
通过以上步骤,基于语义分割技术与禁忌搜索自动提取得到汉字笔画,通过语义分割技术从二值汉字图片中提取笔画分割图,方法鲁棒性好,计算效率高,耗时少,同时提升了分割效果。
虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案作出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (3)

1.一种基于语义分割与禁忌搜索的汉字笔画自动提取方法,通过针对汉字特点改进的语义分割模型获得笔画分割图,通过连通域分析从笔画分割图中获取独立笔画,再通过禁忌搜索算法获取笔画笔顺信息;包括如下步骤:
A.输入目标汉字图片和该汉字的字符编码;所述目标汉字图片是汉字的二值图像;
B.利用改进的语义分割模型DeepStroke提取笔画分割图;包括如下步骤:
B1.基于语义分割模型进行改进,得到改进的语义分割模型DeepStroke;改进包括:
B11.改进的语义分割模型DeepStroke的输入为汉字图片和字符编码;根据输入确定输入的汉字,再得到输入汉字的笔画信息,再将笔画信息上采样与网络的特征图连接,利用上采样之后的笔画信息对模型输出做笔画类别指导;
B12.在语义分割网络的推断阶段,将反映输出类别的概率图的通道1换为类输入二值图,该类输入二值图能正确区分语义图的前景和背景;前景即汉字的笔画类别;
B2.构建用于训练的数据集:对多个字体的常用字图片的每个像素进行类别标注;标注的类别为35类,包括:33个笔画类别、1个背景类别、1个表示不同笔画的交叉区域的交叉类别;
B3.在构建的训练数据集上训练DeepStroke模型,得到训练好的DeepStroke模型;将目标汉字图片和该汉字的字符编码输入训练好的DeepStroke模型,即得到笔画分割图;
C.通过连通域分析,从笔画分割图提取不带笔顺信息的独立笔画;包括如下操作:
C1.笔画类别编号记为i,取值为1到33,交叉类别编号为34;令i等于1;
C2.查询输入汉字的笔画类别编号i的数量Ni;若Ni大于等于1,执行步骤C3;
C3.合并笔画分割图的笔画类别编号i与交叉类别编号的连通域,分别提取出像素数量最多的Ni个连通域;所述Ni个连通域为Ni个独立笔画,即笔画类别i;
令i自增1;
若i<34,转入步骤C2;
D.利用禁忌搜索算法获取笔画顺序S(S1,S2,…,Si,…,SN);S是一个由整数1~N组成的数字序列,代表各个独立笔画的笔顺号,其中N为笔画数量;
设置禁忌搜索的适应度方程为式(1):
其中,N是输入汉字拥有的笔画数量;λ是超参数;TTSi表示第i个按S排序的独立笔画的类别;TRi表示第i个参考字笔画的类别;x=0时I(x)=0,x=1时I(x)=0;t代表T T[S]和TR之间笔画类别不一致的数量;[XTSi,YTSi]代表第i个按S排序的独立笔画的重心坐标;
通过上述步骤,实现基于语义分割与禁忌搜索的汉字笔画的自动提取。
2.如权利要求1所述基于语义分割与禁忌搜索的汉字笔画自动提取方法,其特征是,步骤B2构建用于训练的数据集,具体对多个字体的6763个常用字图片的每个像素进行类别标注。
3.如权利要求1所述基于语义分割与禁忌搜索的汉字笔画自动提取方法,其特征是,步骤B1所述语义分割模型具体为DeepLabV3+。
CN201910697693.7A 2019-07-30 2019-07-30 一种基于语义分割与禁忌搜索的汉字笔画自动提取方法 Active CN112329389B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910697693.7A CN112329389B (zh) 2019-07-30 2019-07-30 一种基于语义分割与禁忌搜索的汉字笔画自动提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910697693.7A CN112329389B (zh) 2019-07-30 2019-07-30 一种基于语义分割与禁忌搜索的汉字笔画自动提取方法

Publications (2)

Publication Number Publication Date
CN112329389A CN112329389A (zh) 2021-02-05
CN112329389B true CN112329389B (zh) 2024-02-27

Family

ID=74319459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910697693.7A Active CN112329389B (zh) 2019-07-30 2019-07-30 一种基于语义分割与禁忌搜索的汉字笔画自动提取方法

Country Status (1)

Country Link
CN (1) CN112329389B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011431A (zh) * 2021-03-31 2021-06-22 华南理工大学 一种基于MaskRCNN的汉字笔画分割提取方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010043117A1 (zh) * 2008-10-17 2010-04-22 Lo Yingkit 一种数字编码方法及其应用
KR20160012901A (ko) * 2014-07-25 2016-02-03 삼성전자주식회사 이미지를 검색하는 방법 및 그 전자 장치
CN106384094A (zh) * 2016-09-18 2017-02-08 北京大学 一种基于书写风格建模的中文字库自动生成方法
CN108537146A (zh) * 2018-03-22 2018-09-14 五邑大学 一种印刷体与手写体混合文本行提取系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010043117A1 (zh) * 2008-10-17 2010-04-22 Lo Yingkit 一种数字编码方法及其应用
KR20160012901A (ko) * 2014-07-25 2016-02-03 삼성전자주식회사 이미지를 검색하는 방법 및 그 전자 장치
CN106384094A (zh) * 2016-09-18 2017-02-08 北京大学 一种基于书写风格建模的中文字库自动生成方法
CN108537146A (zh) * 2018-03-22 2018-09-14 五邑大学 一种印刷体与手写体混合文本行提取系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于图形识别的汉字笔画分类方法;赵青;唐英敏;;计算机技术与发展(第10期);全文 *
基于笔划包围盒的脱机手写体汉字分割算法;王宏志;姜昱明;计算机工程与设计(第003期);全文 *
手写维文字符分割中的多信息融合路径寻优方法;许亚美;卢朝阳;李静;姚超;;西安交通大学学报(第08期);全文 *

Also Published As

Publication number Publication date
CN112329389A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN106980856B (zh) 公式识别方法及系统和符号推理计算方法及系统
Awal et al. A global learning approach for an online handwritten mathematical expression recognition system
CN105469047B (zh) 基于无监督学习深度学习网络的中文检测方法及系统
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN113298151A (zh) 一种基于多级特征融合的遥感图像语义描述方法
US9424823B2 (en) Method and apparatus for recognising music symbols
Zhou et al. Reverse-engineering bar charts using neural networks
CN112818951A (zh) 一种票证识别的方法
CN113537227B (zh) 一种结构化文本识别方法及系统
CN108898092A (zh) 基于全卷积神经网络的多光谱遥感影像路网提取方法
CN113762269A (zh) 基于神经网络的中文字符ocr识别方法、系统、介质及应用
Dey et al. A two-stage CNN-based hand-drawn electrical and electronic circuit component recognition system
CN110263631B (zh) 一种手写化学公式识别与配平方法
CN112329389B (zh) 一种基于语义分割与禁忌搜索的汉字笔画自动提取方法
CN111553442B (zh) 一种分类器链标签序列的优化方法及系统
CN111144469A (zh) 基于多维关联时序分类神经网络的端到端多序列文本识别方法
CN116071389A (zh) 一种基于前背景匹配的边界框弱监督图像分割方法
Hu et al. Mathematical formula detection in document images: A new dataset and a new approach
Li et al. Arbitrary shape scene text detector with accurate text instance generation based on instance-relevant contexts
Wang et al. DeepStroke: understanding glyph structure with semantic segmentation and tabu search
CN117593755B (zh) 一种基于骨架模型预训练的金文图像识别方法和系统
CN116311275B (zh) 一种基于seq2seq语言模型的文字识别方法及系统
CN114241495B (zh) 一种用于脱机手写文本识别的数据增强方法
CN117727053B (zh) 一种多类别汉字单样本字体识别方法
CN114548325B (zh) 基于对偶对比学习的零样本关系抽取方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant