CN115393865A - 文字检索方法、设备以及计算机可读存储介质 - Google Patents
文字检索方法、设备以及计算机可读存储介质 Download PDFInfo
- Publication number
- CN115393865A CN115393865A CN202211060817.9A CN202211060817A CN115393865A CN 115393865 A CN115393865 A CN 115393865A CN 202211060817 A CN202211060817 A CN 202211060817A CN 115393865 A CN115393865 A CN 115393865A
- Authority
- CN
- China
- Prior art keywords
- character
- text
- characters
- target
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012545 processing Methods 0.000 claims abstract description 20
- 230000004044 response Effects 0.000 claims description 23
- 210000000988 bone and bone Anatomy 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及图像处理技术领域,公开了一种文字检索方法、设备以及计算机可读存储介质。文字检索方法包括:文字检索系统获取待识别文字;提取待识别文字的文字类型以及文字特征;利用待识别文字的文字类型以及文字特征,于文字图像集检索与待识别文字相匹配的文字样本;输出检索结果。通过上述方式,本发明能够提高文字检索的可靠性。
Description
技术领域
本发明涉及图像处理技术领域,特别是涉及一种文字检索方法、文字检索设备以及计算机可读存储介质。
背景技术
东巴文有1400多个单字,词语丰富,能够表达细腻的情感,能记录复杂的事件,亦能写诗作文。东巴文被称之为世界唯一存活着的象形文字,被誉为文字的“活化石”。2003年,东巴古籍被联合国教科文组织列入世界记忆名录,并进行数码记录。
东巴文是从图画文字向象形文字过渡时期的一种文字形态。但是东巴文与图画文字不同的是,东巴文是以象形符号为基础。东巴文早期主要是由东巴法师用于抄写经文,由于东巴文还没有发展成为一种字形比较固定、统一的表意文字。因此,根据书写的东巴法师不同而具有明显的个体差异性,导致非常多的异体字(一字数写,字形不同而音、义基本相同)的存在,极大程度上增加释读东巴经典的难度。
因此,目前会通过应用数字图像处理、模式检索与识别等现代信息技术,研究东巴象形文字的书写方法、文字构造特点和使用习惯。辅助释读东巴经典及东巴文构字法的研究,有利于东巴文的学习、研究及对外宣传和推广。但是,由于目前检索/识别等方法设计不合理,导致东巴文检索的可靠性较低。
发明内容
有鉴于此,本发明的目的是提供一种文字检索方法、文字检索设备以及计算机可读存储介质,能够提高文字检索的可靠性。
为达到上述目的,本发明采用的技术方案是:提供一种文字检索方法。文字检索包括:文字检索系统获取待识别文字;提取待识别文字的文字类型以及文字特征;利用待识别文字的文字类型以及文字特征,于文字图像集检索与待识别文字相匹配的文字样本;输出检索结果。
在本发明的一实施例中,于文字图像集检索与待识别文字相匹配的文字样本;输出检索结果包括:比对待识别文字的文字类型以及文字特征与文字样本的文字类型以及文字特征;响应于文字样本的文字类型以及文字特征二者均与待识别文字匹配,判定文字样本为与待识别文字相匹配的文字之一,直至遍历文字图像集的文字样本;将与待识别文字相匹配的文字样本作为检索结果输出。
在本发明的一实施例中,文字类型包括合体字类型以及独体字类型;提取文字类型包括:获取目标文字的二值图像,并对二值图像进行连通域标记处理;目标文字为待识别文字的图像或文字样本;获取各连通域在至少一个方向上的距离,确定目标文字的文字部件的数量;响应于文字部件的数量为一个,判定目标文字为独体字类型;响应于文字部件的数量为多个,判定目标文字为合体字类型,标记多个文字部件;获取各文字部件的文字特征,将各文字部件的文字特征作为目标文字的文字特征。
在本发明的一实施例中,独体字类型包括轮廓型独体字以及骨骼型独体字;判定目标文字为独体字类型之后还包括:获取目标文字的轮廓图像以及骨骼图像;计算轮廓图像的面积与骨骼图像的面积的比值,得到目标文字的轮廓骨骼比;响应于轮廓骨骼比大于预设值,判定目标文字为轮廓型独体字;响应于轮廓骨骼比小于预设值,判定目标文字为骨骼型独体字。
在本发明的一实施例中,文字特征包括网格面积比、欧拉数以及所轮廓骨骼比三者中的至少一者;提取网格面积比包括:获取目标文字的骨骼图像以及轮廓图像;目标文字为待识别文字的图像或文字样本;构建预设网格区域;分别获取骨骼图像以及轮廓图像的网格面积比;网格面积比为轮廓图像/骨骼图像于预设网格区域的覆盖面积。
在本发明的一实施例中,构建预设网格区域包括:获取目标文字的尺寸参数;比较尺寸阈值以及目标文字的尺寸参数;响应于目标文字的尺寸参数高于尺寸阈值,则以尺寸阈值为网格尺寸构建预设网格区域;响应于目标文字的尺寸参数介于预设范围内,预设范围为1/2的尺寸阈值至尺寸阈值之间,则以1/4的尺寸阈值为网格尺寸构建预设网格区域;否则,则以目标文字的尺寸参数构建预设网格区域。
在本发明的一实施例中,获取目标文字的轮廓图像以及骨骼图像包括:对目标文字进行预处理;检测经预处理后的目标文字的边缘,提取得到骨骼图像;填充骨骼图像的边缘缝隙填充以及文字孔缝,得到中间图像;对中间图像进行边缘平滑处理,得到轮廓图像。
在本发明的一实施例中,文字检索系统的训练过程包括:获取标准模板;标准模板作为文字识别模型的输入;获取标准模板的文字特征以及文字类型,形成分类条件;获取文字图像集内的文字样本作为待测文字,判断各待测文字是否符合分类条件;将符合分类条件的待测文字划分至结果区且输出。
在本发明的一实施例中,符合分类条件包括:待测文字的文字特征以及文字类型均与标准模板的文字特征以及文字类型相匹配;满足分类条件的待测文字划分至结果区包括:响应于待测文字的文字特征以及文字类型均与标准模板相匹配,将待测文字划分至结果区;响应于待测文字的文字特征以及文字类型中的一者与标准模板相匹配,将待测文字划分至待定区;否则,丢弃待测文字。
在本发明的一实施例中,将待测文字划分至待定区之后包括:对标准模板进行变形处理形成衍生模板,并获取衍生模板的文字特征以及文字类型;比对待定区内的待测文字与衍生模板,将待测文字划分至结果区或丢弃,直至清空待定区。
为达到上述目的,本发明采用的又一技术方案是:提供一种文字检索设备。文字检索设备包括处理器,处理器用于执行指令实现上述任一项实施例中的文字检索方法。
为达到上述目的,本发明采用的又一技术方案是:提供计算机可读存储介质,计算机可读存储介质用于存储指令/程序数据,指令/程序数据能够被执行以实现如上述任一项实施例中的文字检索方法。
与现有技术相比,本发明将待识别文字与文字图像集中的文字样本进行比对以实现对待识别文字的检索。文字检索系统能够提取待识别文字的文字类型以及文字特征,这意味着本发明中至少能够基于待识别文字的文字类型以及文字特征,对待识别文字进行检索,从而提高文字检索过程的可靠性,进而提高所输出的检索结果的可靠性,换言之,能够提高检索结果的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明文字检索方法一实施例的流程示意图;
图2是本发明文字检索方法另一实施例的流程示意图;
图3是本发明提取文字类型一实施例的流程示意图;
图4是本发明提取网格面积比一实施例的流程示意图;
图5是本发明文字检索系统的训练方法一实施例的流程示意图;
图6是本发明衍生模板一实施例的场景示意图;
图7是本发明检索结果一实施例的场景示意图;
图8是本发明文字检索设备一实施例的结构示意图;
图9是本发明计算机可读存储介质一实施例的结构示意图。
具体实施方式
下面将通过具体实施方式对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
东巴文,亦称纳西象形文字,起源于纳西族的宗教典籍兼百科全书的《东巴经》。由于这种文字由东巴(智者)所掌握,故称东巴文。东巴文是一种居于西藏东部及云南省北部的少数民族纳西族所使用的文字,为兼备表意和表音成分的图画象形文字。东巴文的文字形态十分原始,属于文字起源早期时的形态,尽管如此东巴文仍被完整纪录典藏。
为解决现有技术中东巴文字检索结果可靠性较低的技术问题,本发明提供一种文字检索方法、文字检索设备以及计算机可读存储介质。其中,文字检索方法包括:文字检索系统获取待识别文字;提取待识别文字的文字类型以及文字特征;利用待识别文字的文字类型以及文字特征,于文字图像集检索与待识别文字相匹配的文字样本;输出检索结果。以下对本发明进行详细阐述。
请参阅图1,图1是本发明文字检索方法一实施例的流程示意图。需要说明的是,本实施例所阐述的文字检索方法并不局限于检索东巴文字,也可以用于检索汉文字等,并且本实施例所阐述的文字检索方法并不局限于以下步骤:
S101:文字检索系统获取待识别文字。
在本实施例中,待识别文字为需要进行识别的东巴文字。文字检索系统具有检索功能,即文字检索系统能够检索与待识别文字相似/匹配的东巴文字。
S102:提取待识别文字的文字类型以及文字特征。
在本实施例中,文字检索系统能够对所获取的待识别文字进行识别分析,获取待识别文字的文字类型,同时提取待识别文字的文字特征。可以将待识别文字的文字类型以及文字特征作为检索依据,以检索与待识别文字相匹配的东巴文字。
S103:利用待识别文字的文字类型以及文字特征,于文字图像集检索与待识别文字相匹配的文字样本。
在本实施例中,文字检索系统在提取到待识别文字的文字类型和文字特征后,将文字类型和文字特征作为检索依据,检索文字图像集内与待识别文字相匹配的文字样本。
以文字检索系统用于检索东巴文为例,文字图像集可以是基于《纳西象形文字谱》、《麽些象形文字字典》等建立的。具体地,文字图像集内的文字样本可以为直接自书中提取到的东巴文字图像,亦可以是对东巴文字图像进行预处理后形成的,在此不做限定。
S104:输出检索结果。
在本实施例中,文字检索系统于文字图像集内检索到与待识别文字相匹配的文字样本后,将相匹配的文字样本作为检索结果进行输出。相当于向用户展示检索结果,可以由用户进一步指定相应的文字样本,调取相应的解释、含义等展示于用户。其中,作为检索结果的文字样本可以按照随机顺序或预设顺序规则进行输出。
可选地,可以综合计算作为检索结果的各文字样本与标准模板的相关性,并根据相关性对文字样本进行排名,按照排名顺序显示检索结果。可选地,相关性可以采用距离测度分类法获取。举例而言,可以按照相关性由高至低的顺序,输出作为检索结果的文字样本。
由此可见,在本实施例中,能够将待识别文字的文字类型以及文字特征作为检索依据,文字检索系统基于该检索依据于文字图像集内进行检索,将与待识别文字相匹配的文字样本作为检索结果并进行输出。也就是说,本实施例中检索依据为至少两个维度,至少能够结合文字类型以及文字特征进行检索,丰富文字检索系统的检索依据,从而有利于提高检索过程的可靠性,进而提高检索结果与待识别文字的匹配度,进而有效提高文字检索的可靠性。
请参阅图2,图2是本发明文字检索方法另一实施例的流程示意图。需要说明的是,本实施例所阐述的文字检索方法并不局限于以下步骤:
S201:文字检索系统获取待识别文字。
在本实施例中,待识别文字为需要进行识别的东巴文字。文字检索系统具有检索功能,即文字检索系统能够检索与待识别文字相似/匹配的东巴文字。
S202:提取待识别文字的文字类型以及文字特征。
在本实施例中,文字检索系统能够对待识别文字进行计算分析,提取得到待识别文字的文字类型以及文字特征。
文字检索系统能够以待识别文字的文字类型以及文字特征作为检索依据进行检索,以基于多维度的数据信息进行检索,提高检索过程的可靠性。以下具体阐述利用待识别文字的文字类型以及文字特征,于文字图像集检索与待识别文字相匹配的文字样本的实施方式。
S203:比对待识别文字与文字样本是否匹配。
在本实施例中,若待识别文字与文字样本匹配,认为文字样本可能是待识别文字,则执行步骤S204;若待识别文字与文字样本不匹配,认为文字样本不是待识别文字,则执行步骤S205。
文字检索系统在获取到待识别文字的文字类型以及文字特征后,将其与文字图像集内文字样本的文字类型以及文字特征进行比对。
其中,文字样本的文字类型以及文字特征可以是在对待识别文字进行检索前预先获取的,与文字样本关联。亦或是,在文字检索系统每次对待识别文字进行检索时,依次获取文字图像集内文字样本的文字类型以及文字特征进行比对。亦或是,在文字检索系统首次对待识别文字进行检索时,获取文字图像集内各文字样本的文字类型以及文字特征,并进行存储,以在后续对其他待识别文件进行检索时,能够直接调用所存储的文字样本的文字类型以及文字特征进行比对,以减轻文字检索系统的运算负担,还有利于缩短计算过程,以提高反馈检索结果的及时性。
可选地,文字类型可以包括独体字类型以及合体字类型,分别相当于单素字以及复素字。在提取文字类型时,可以时确认目标文字是独体字类型或合体字类型。当然在替代实施例中,文字类型也可以是自行定义的若干种类型。
文字特征可以包括网格面积比、欧拉数以及轮廓骨骼比三者中的至少一者,在此不做限定。可选地,可以设定相关性阈值,用于衡量文字样本与待识别文字是否匹配。
关于提取文字类型以及文字特征的具体实施方式将在后文进行详细阐述,在此就不再赘述。
S204:判定文字样本为与待识别文字相匹配的文字之一。
在本实施例中,响应于文字样本的文字类型以及文字特征二者均与待识别文字匹配,则可以判定用于与待识别文字进行比对的文字样本与待识别文字匹配,认为当前文字样本为与待识别文字相匹配的文字之一。并且,文字样本的文字类型与文字特征均与待识别文字相匹配,提高文字检索的准确度。
S205:判断是否遍历文字图像集的文字样本。
在本实施例中,若判断遍历文字图像集的文字样本,认为已完成了文字检索,则执行步骤S206;若判断未遍历文字图像集的文字样本,即仍存在未进行比对的文字样本,认为未参与比对的文字样本中仍存在与待识别文字相匹配的文字样本,则需要选择未参与比对的文字样本继续执行步骤S203。
在完成判定一个文字样本是否与待识别文字匹配之后,可以判断是否遍历文字图像集,如是设计考虑到诸如东巴文字等,可能存在轮廓、骨骼相似的文字,首次找到与待识别文字相匹配的文字样本可能并非待识别文字。因此,遍历文字图像集有利于检索到文字图像集内全部可能是待识别文字的文字样本,提高文字检索的可靠性。
S206:将与待识别文字相匹配的文字样本作为检索结果输出。
在本实施例中,文字检索系统在遍历文字图像集的文字样本,即将全部文字样本均与待识别文字进行比对后,将与待识别文字相匹配的文字样本作为检索结果输出,以供用户参考以及进一步选择。
可选地,在替代实施例中,也可以是在步骤S204中将与待识别文字相匹配的文字样本进行输出,而后再继续执行步骤S205,在此就不再赘述。
如前文中所阐述的,文字类型可以包括独体字类型以及合体字类型。进一步地,独体字类型还可以进一步细化为轮廓型独体字以及骨骼型独体字。也就是说,待识别文字/文字样本的文字类型可以是轮廓型独体字、骨骼型独体字以及合体字类型。可选地,为提高提取文字类型以及文字特征的可靠性,还可以另构建提取模型,用于提取文字类型以及文字特征;也可以由文字检索系统实现提取文字类型以及文字特征的功能,在此不做限定。
在一实施例中,文字检索系统可以至少包括特征提取模型以及文字检索模型,可以由特征提取模型提取待识别文字/文字样本的文字类型以及文字特征,文字检索模型对待识别文字进行文字检索,以提高各模型的可靠性,降低过拟合的风险。
在一替代实施例中,文字检索系统也可以仅包括一个模型实现文字特征提取、文字分类、文字检索等功能。
以下对本发明中提取目标文字的文字类型的具体实施方式进行详细阐述;其中,目标文字可以是待识别文字,也可以是文字样本。请参阅图3,图3是本发明提取文字类型一实施例的流程示意图。需要说明的是,本实施例所阐述的提取文字类型的方法并不局限于以下步骤:
S301:获取目标文字的二值图像,并对二值图像进行连通域标记处理。
在本实施例中,目标文字可以是待识别文字,也可以是文字图像集的文字样本。获取目标文字的二值图像,并对二值图像进行连通域标记处理,从而获取目标文字的骨骼,即连通域标记的是目标文字的具体笔画。
S302:获取各连通域在至少一个方向上的距离,确定目标文字的文字部件的数量。
在本实施例中,在得到目标文字的具体骨骼之后,获取各连通域在至少一个方向上的距离,如是能够基于连通域的数量确定文字部件的数量,可以基于文字部件的数量判断目标文字属于独体字类型或合体字类型。其中,独体字类型文字所具有文字部件的数量为一个,合体字类型文字所具有文字部件的数量为至少两个。
其中,至少一个方向可以是一个、二个、四个、八个等,在此不做限定。以八个方向为例,可以分别为上、下、左、右、左上、右上、左下、右下。
S303:判断目标文字的文字部件的数量是否为一个。
在本实施例中,若目标文字的文字部件的数量为一个,认为目标文字的文字部件的数量与独体字类型的文字部件的数量匹配,则执行步骤S304;若目标文字的文字部件的数量不是一个,认为目标文字的文字部件的数量与合体字类型的文字部件的数量匹配,则执行步骤S309。
S304:判定目标文字为独体字类型。
在本实施例中,响应于目标文字的文字部件的数量为一个,则判定目标文字为独体字类型。
可以进一步继续执行步骤S305判定目标文字属于轮廓型独体字或属于骨骼型独体字,以进一步筛选反馈至用户的检索结果。在替代实施例中,也可以判定目标文字为独体字类型即可,无需对独体字类型进行进一步细化,以减少文字检索系统的检索代价,提高检索效率。
S305:计算目标文字的轮廓骨骼比。
在本实施例中,获取目标文字的轮廓图像以及骨骼图像。其中,骨骼图像为仅包括目标文字骨骼的图像,相当于在目标文字图像中对骨骼部分进行抠图所形成的新的图像。轮廓图像则为目标文字外围轮廓的图像。对于骨骼图像和轮廓图像的具体获取方式将在后文进行举例阐述,在此不做限定。
计算轮廓图像的面积与骨骼图像的面积的比值,得到目标文字的轮廓骨骼比。轮廓骨骼比可用于判断属于独体字类型的目标文字,具体属于轮廓型独体字或骨骼型独体字。其中,轮廓骨骼比还可以作为文字特征参与待识别文字与文字样本比对的过程。
S306:比较轮廓骨骼比与预设值。
在本实施例中,若目标文字的轮廓骨骼比大于预设值,认为目标文字的轮廓骨骼比与轮廓型独体字的轮廓骨骼比相匹配,则执行步骤S307;若目标文字的轮廓骨骼比小于预设值,认为目标文字的轮廓骨骼比与骨骼型独体字的轮廓骨骼比相匹配,则执行步骤S308。
在一替代实施例中,轮廓骨骼比也可以是骨骼图像的面积与轮廓图像的面积的比值,那么若目标文字的轮廓骨骼比小于预设值,则执行步骤S307;若目标文字的轮廓骨骼比大于预设值,则执行步骤S308。
S307:判定目标文字为轮廓型独体字。
在本实施例中,响应于轮廓骨骼比大于预设值,判定目标文字为轮廓型独体字。
S308:判定目标文字为骨骼型独体字。
在本实施例中,响应于轮廓骨骼比小于预设值,判定目标文字为骨骼型独体字。
S309:判定目标文字为合体字类型。
在本实施例中,响应于文字部件的数量为多个,判定目标文字为合体字类型。
S310:标记多个文字部件,获取各文字部件的文字特征。
在本实施例中,响应于目标文字为合体字类型,则基于对二值图像的连通域标记处理对各个文字部件进行标记。进一步获取各文字部件的文字特征,所获取的文字特征与检索待识别文字所获取的文字特征相同,文字特征可以包括网格面积比、欧拉数以及轮廓骨骼比三者中的至少一者。
S311:将各文字部件的文字特征作为目标文字的文字特征。
在本实施例中,在获取到属于合体字类型的目标文字中各文字部件的文字特征后,可以将各文字部件的文字特征作为目标文字的文字特征,将多个文字部件的文字特征与目标文字进行关联。
举例而言,在待识别文字属于合体字类型时,分别获取待识别文字的各文字部件的文字特征;在与属于合体字类型的文字样本进行比对时,将待识别文字各文字部件的文字特征与文字样本各文字部件的文字特征进行比对,以提高识别的准确度。
显而易见地,在将属于合体字类型的目标文字拆分为多个文字部件,分别获取各文字部件的文字特征,相对直接获取属于合体字类型的目标文字的文字特征,能够获取更多的细节信息,还能够降低获取文字特征的复杂度,有利于提高提取文字特征的效率。
以下对本发明中文字特征包括网格面积比时,获取网格面积比的具体实施方式进行举例。请参阅图4,图4是本发明提取网格面积比一实施例的流程示意图。需要说明的是,本实施例所阐述的提取网格面积比的方法并不局限于以下步骤:
S401:获取目标文字的骨骼图像以及轮廓图像
在本实施例中,可以对目标文字进行预处理。其中,预处理可以是灰度处理、获取文字的绑定矩形、局部干扰点的分析与去除等,在此就不再赘述。
检测经预处理后的目标文字的边缘,提取得到骨骼图像。可选地,可以是利用诸如Sobel算子等方式实现边缘处理。
对骨骼图像进行边缘缝隙填充以及进行文字孔缝填充,得到中间图像,对中间图像进行边缘平滑处理,得到轮廓图像。也就是说,轮廓图像可以是在得到骨骼图像后,对骨骼图像进行处理得到轮廓图像。相对于分别获取骨骼图像和轮廓图像,本实施例能够减少提取的复杂度,还能够简化提取计算过程。
S402:构建预设网格区域。
在本实施例中,在得到目标文字的骨骼图像以及轮廓图像后,可以获取目标文字的尺寸参数,基于目标文字的尺寸参数构建计算网格面积比的预设网格区域。
具体地,将目标文字的尺寸参数与尺寸阈值进行比较。响应于目标文字的尺寸参数高于尺寸阈值,则以尺寸阈值为网格尺寸构建预设网格区域;响应于目标文字的尺寸参数介于预设范围内,预设范围为1/2的尺寸阈值至尺寸阈值之间,则以1/4的尺寸阈值为网格尺寸构建预设网格区域;否则,则以目标文字的尺寸参数构建预设网格区域。
S403:分别获取骨骼图像以及轮廓图像的网格面积比。
在本实施例中,在完成预设网格区域的构建后,可以分别获取骨骼图像以及轮廓图像的网格面积比。网格面积比为轮廓图像/骨骼图像于预设网格区域的覆盖面积。
也就是说,网格面积比包括两个参数,分别为骨骼图像的网格面积比以及轮廓图像的面积比,以增加用于检索待识别文字的文字特征的丰富度,进而有效提高文字检索的可靠性。
以下对本发明文字检索系统的训练方法进行举例阐述。请参阅图5,图5是本发明文字检索系统的训练方法一实施例的流程示意图。其中,以前文中所阐述的文字检索系统可以至少包括特征提取模型以及文字检索模型,此处的训练方法可以是针对文字检索模型的训练方法。当然,在一替代实施例中,若文字检索系统仅包括一个模型实现文字特征提取、文字分类、文字检索等功能,那么本实施例中的训练方法也适用于该模型。需要说明的是,本实施例所阐述的文字检索系统的训练方法并不局限于以下步骤:
S501:获取标准模板。
在本实施例中,标准模板为用于训练文字检索的模型的文字,将标准模板作为文字识别模型的输入,利用标准模板训练文字检索系统。
其中,文字图像集内存在与标准模板相匹配的文字样本。
S502:获取标准模板的文字特征以及文字类型,形成分类条件。
在本实施例中,获取标准模板的文字特征以及文字类型。获取文字类型的方式可以利用如上述实施例中所阐述的提取文字类型的方法,当文字特征包括网格面积比时,可以利用如上述实施例中所阐述的提取网格面积比的方法,在此就不再赘述。
顾名思义,分类条件用于评判文字图像集内的文字样本是否与标准模板相匹配。举例而言,分类条件可以是标准模板的文字类型以及文字特征。符合分类条件的标准为待测文字的文字特征以及文字类型均与标准模板的文字特征以及文字类型相匹配。
S503:获取文字图像集内的文字样本作为待测文字;
在本实施例中,将文字图像集内全部文字样本作为待测文字,依次利用待测文字与标准模板进行比对。并且,每个待测文字与标准模板进行比对时,均执行以下步骤。
S504:判断待测文字是否符合分类条件
在本实施例中,将待测文字与标准模板进行比对。若待测文字符合分类条件,认为待测文字与标准模板相匹配,则执行步骤S505;若待测文字未符合分类条件,认为待测文字与标准模板不完全匹配,则执行步骤S506。
S505:将待测文字划分至结果区且输出。
在本实施例中,响应于待测文字符合分类条件,将待测文字划分至结果区,结果区的待测文字相当于上述实施例的检索结果,可用于输出。
S506:将文字特征以及文字类型中的一者与标准模板匹配的待测文字划分至待定区,丢弃均不匹配的待测文字。
在本实施例中,响应于待测文字的文字特征以及文字类型中的一者与标准模板相匹配,将待测文字划分至待定区,继续执行步骤S507。否则,丢弃待测文字,即文字类型以及文字特征均与标准模板匹配的待测文字,认为其不会是标准模板,可以丢弃。
需要说明的是,丢弃待测文字是指不参与后续进一步判定是否与标准模板匹配的步骤,而非将待测文字的文字样本自文字图像集删除。
S507:获取衍生模板,并获取衍生模板的文字特征以及文字类型。
在本实施例中,响应于待测文字的文字特征以及文字类型中的一者与标准模板相匹配,即待测文字的文字特征与标准模板的文字特征相匹配,或待测文字的文字类型与标准模板的文字类型相匹配,对标准模板进行变形处理形成衍生模板。对衍生模板进行分析以获取衍生模板的文字特征以及文字类型。
出现如是情形可能是书写的东巴法师不同而导致同一东巴文字具有明显的个体差异性,即存在异体字。因此,对标准模板进行变形处理,有利于模拟可能出现的异体字,进而可以利用衍生模板对待定区的待测文字进行进一步识别。
具体地,可以对标准模板进行诸如平移、尺度缩放、旋转、水平及垂直拉伸变形等变形处理,设计字符伪样本作为学习集,即衍生样本,使用支持向量机对学习集中的样本学习文字特征以及文字类型。
如图6中所举例展示的,图6是本发明衍生模板一实施例的场景示意图,图6中举例展示了东巴文中“立”字作为标准模板,所生成的若干衍生模板的具体字形。如图7中所举例展示的,图7是本发明检索结果一实施例的场景示意图。图7中举例展示了与东巴文“立”字相匹配的多个文字样本输出。当然,在上述文字检索方法中,输出检索结果的方式可以与图7中所展示的相似,在此就不再赘述。
S508:比对待定区内的待测文字与衍生模板,将待测文字划分至结果区或丢弃,直至清空待定区。
在本实施例中,将待定区内的待测文字进一步与衍生模板进行比对。具体地,将待测文字的文字类型以及文字特征与衍生模板的文字类型以及文字特征进行比对。将文字类型以及文字特征二者均与衍生模板匹配的待测文字,划分至结果区用于输出;将文字类型以及文字特征二者均与衍生模板不匹配的待测文字丢弃;将文字类型以及文字特征中一者均与衍生模板匹配的待测文字,保留于待定区,进一步对衍生模板进行变形处理,将待测文字与衍生模板进行进一步比对,直至清空待定区。即直至全部待测文字均划分至结果区/丢弃为止。
相当于,将待定区中的待测文字作为测试集,使用支持向量机对待定区的待测文字进行递归的特征提取、比较和分类,直到待定区中的所有待测文字被分类到结果区或丢弃为止。其中,前文中所阐述的结果区以及待定区为虚拟分区,可以是将待测文字放于虚拟分区;也可以是对待测文字进行分类标识,或者以其他方式区分待测文字,在此就不再赘述。
进一步地,还可以综合计算结果区中各待测文字所代表的文字样本与标准模板的相关性,并根据相关性对各待测文字进行排名,按照排名顺序显示检索结果。可选地,相关性可以采用距离测度分类法获取。
请参阅图8,图8是本发明文字检索设备一实施例的结构示意图。
在一实施例中,文字检索设备10包括处理器11,处理器11还可以称为CPU(CentralProcessing Unit,中央处理单元)。处理器11可能是一种集成电路芯片,具有信号的处理能力。处理器11还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器11也可以是任何常规的处理器等。
文字检索设备10可以进一步包括存储器(图中未示出),用于存储处理器11运行所需的指令和数据。
处理器11用于执行指令以实现如上述任一项实施例中所阐述的文字检索方法。
请参阅图9,图9是本发明计算机可读存储介质一实施例的结构示意图。
在一实施例中,计算机可读存储介质20用于存储指令/程序数据21,指令/程序数据21能够被执行以实现如上述任一项实施例中所阐述的文字检索方法,在此就不再赘述。
在本发明所提供的几个实施方式中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式为示意性的,例如,模块或单元的划分,为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式的目的。
另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质20中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式所阐述方法的全部或部分步骤。而前述的计算机可读存储介质20包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存储器(RAM,Random AccessMemory)、磁碟或者光盘、服务器等各种可以存储程序代码的介质。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (12)
1.一种文字检索方法,其特征在于,包括:
文字检索系统获取待识别文字;
提取所述待识别文字的文字类型以及文字特征;
利用所述待识别文字的文字类型以及文字特征,于文字图像集检索与所述待识别文字相匹配的文字样本;
输出检索结果。
2.根据权利要求1所述的文字检索方法,其特征在于,所述于文字图像集检索与所述待识别文字相匹配的文字样本;输出检索结果包括:
比对所述待识别文字的文字类型以及文字特征与所述文字样本的文字类型以及文字特征;
响应于所述文字样本的文字类型以及文字特征二者均与所述待识别文字匹配,判定所述文字样本为与所述待识别文字相匹配的文字之一,直至遍历所述文字图像集的文字样本;
将与所述待识别文字相匹配的所述文字样本作为所述检索结果输出。
3.根据权利要求1所述的文字检索方法,其特征在于,所述文字类型包括合体字类型以及独体字类型;提取文字类型包括:
获取目标文字的二值图像,并对所述二值图像进行连通域标记处理;所述目标文字为所述待识别文字的图像或所述文字样本;
获取各所述连通域在至少一个方向上的距离,确定所述目标文字的文字部件的数量;
响应于所述文字部件的数量为一个,判定所述目标文字为所述独体字类型;
响应于所述文字部件的数量为多个,判定所述目标文字为所述合体字类型,标记多个文字部件;获取各文字部件的文字特征,将所述各文字部件的文字特征作为所述目标文字的文字特征。
4.根据权利要求3所述的文字检索方法,其特征在于,所述独体字类型包括轮廓型独体字以及骨骼型独体字;所述判定所述目标文字为所述独体字类型之后还包括:
获取所述目标文字的轮廓图像以及骨骼图像;
计算所述轮廓图像的面积与所述骨骼图像的面积的比值,得到所述目标文字的轮廓骨骼比;
响应于所述轮廓骨骼比大于预设值,判定所述目标文字为所述轮廓型独体字;响应于所述轮廓骨骼比小于预设值,判定所述目标文字为所述骨骼型独体字。
5.根据权利要求1所述的文字检索方法,其特征在于,所述文字特征包括网格面积比、欧拉数以及轮廓骨骼比三者中的至少一者;提取所述网格面积比包括:
获取目标文字的骨骼图像以及轮廓图像;所述目标文字为所述待识别文字的图像或所述文字样本;
构建预设网格区域;
分别获取所述骨骼图像以及所述轮廓图像的网格面积比;所述网格面积比为所述轮廓图像/所述骨骼图像于所述预设网格区域的覆盖面积。
6.根据权利要求5所述的文字检索方法,其特征在于,所述构建预设网格区域包括:
获取所述目标文字的尺寸参数;
比较尺寸阈值以及所述目标文字的尺寸参数;
响应于所述目标文字的尺寸参数高于尺寸阈值,则以尺寸阈值为网格尺寸构建预设网格区域;响应于所述目标文字的尺寸参数介于预设范围内,所述预设范围为1/2的尺寸阈值至尺寸阈值之间,则以1/4的尺寸阈值为网格尺寸构建预设网格区域;否则,则以所述目标文字的尺寸参数构建预设网格区域。
7.根据权利要求5所述的文字检索方法,其特征在于,所述获取所述目标文字的轮廓图像以及骨骼图像包括:
对所述目标文字进行预处理;
检测经预处理后的所述目标文字的边缘,提取得到所述骨骼图像;
填充所述骨骼图像的边缘缝隙填充以及文字孔缝,得到中间图像;
对所述中间图像进行边缘平滑处理,得到所述轮廓图像。
8.根据权利要求1所述的文字检索方法,其特征在于,文字检索系统的训练过程包括:
获取标准模板;所述标准模板作为所述文字识别模型的输入;
获取所述标准模板的文字特征以及文字类型,形成分类条件;
获取所述文字图像集内的文字样本作为待测文字,判断各所述待测文字是否符合所述分类条件;
将符合所述分类条件的所述待测文字划分至结果区且输出。
9.根据权利要求8所述的文字检索方法,其特征在于,符合所述分类条件包括:所述待测文字的文字特征以及文字类型均与所述标准模板的文字特征以及文字类型相匹配;
所述满足所述分类条件的所述待测文字划分至结果区包括:
响应于所述待测文字的文字特征以及文字类型均与所述标准模板相匹配,将所述待测文字划分至所述结果区;响应于所述待测文字的文字特征以及文字类型中的一者与所述标准模板相匹配,将所述待测文字划分至待定区;否则,丢弃所述待测文字。
10.根据权利要求9所述的文字检索方法,其特征在于,所述将所述待测文字划分至待定区之后包括:
对所述标准模板进行变形处理形成衍生模板,并获取所述衍生模板的文字特征以及文字类型;
比对所述待定区内的待测文字与衍生模板,将待测文字划分至结果区或丢弃,直至清空所述待定区。
11.一种文字检索设备,其特征在于,包括:
处理器,所述处理器用于执行指令实现权利要求1-10任一项所述的文字检索方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储指令/程序数据,所述指令/程序数据能够被执行以实现如权利要求1-10任一项所述的文字检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211060817.9A CN115393865A (zh) | 2022-08-31 | 2022-08-31 | 文字检索方法、设备以及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211060817.9A CN115393865A (zh) | 2022-08-31 | 2022-08-31 | 文字检索方法、设备以及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115393865A true CN115393865A (zh) | 2022-11-25 |
Family
ID=84125195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211060817.9A Withdrawn CN115393865A (zh) | 2022-08-31 | 2022-08-31 | 文字检索方法、设备以及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115393865A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115841670A (zh) * | 2023-02-13 | 2023-03-24 | 福建鹿鸣教育科技有限公司 | 一种基于图像识别的作业错题收集系统 |
-
2022
- 2022-08-31 CN CN202211060817.9A patent/CN115393865A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115841670A (zh) * | 2023-02-13 | 2023-03-24 | 福建鹿鸣教育科技有限公司 | 一种基于图像识别的作业错题收集系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102106462B1 (ko) | 가중치 기반의 유사 문제 필터링 방법 | |
Wilkinson et al. | Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections | |
Naz et al. | Segmentation techniques for recognition of Arabic-like scripts: A comprehensive survey | |
CN111274239B (zh) | 试卷结构化处理方法、装置和设备 | |
CN107622271B (zh) | 手写文本行提取方法及系统 | |
CN105117740A (zh) | 字体识别方法及装置 | |
CN111753120A (zh) | 一种搜题的方法、装置、电子设备和存储介质 | |
CN111090817A (zh) | 书籍扩展信息的展示方法、电子设备及计算机存储介质 | |
Pantke et al. | An historical handwritten arabic dataset for segmentation-free word spotting-hadara80p | |
CN110489674B (zh) | 页面处理方法、装置及设备 | |
CN115393865A (zh) | 文字检索方法、设备以及计算机可读存储介质 | |
Abdelaziz et al. | Altecondb: A large-vocabulary arabic online handwriting recognition database | |
KR101118628B1 (ko) | 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법 | |
CN109101973B (zh) | 文字识别方法、电子设备、存储介质 | |
Zhang et al. | Computational method for calligraphic style representation and classification | |
CN108664945B (zh) | 图像文本及形音义特征识别方法和装置 | |
CN114579796B (zh) | 机器阅读理解方法及装置 | |
CN112560849B (zh) | 基于神经网络算法的文理分割方法及系统 | |
Budig | Extracting spatial information from historical maps: algorithms and interaction | |
CN110533035B (zh) | 基于文本匹配的学生作业页码识别方法 | |
CN115565193A (zh) | 问卷信息录入方法、装置、电子设备及存储介质 | |
CN115050025A (zh) | 基于公式识别的知识点抽取方法及装置 | |
CN111582281B (zh) | 一种图片显示优化的方法、装置、电子设备和存储介质 | |
CN115311666A (zh) | 图文识别方法、装置、计算机设备及存储介质 | |
CN113139547B (zh) | 文本识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20221125 |
|
WW01 | Invention patent application withdrawn after publication |