CN111291750B - 一种基于空间近邻关系的甲骨文自动标注方法 - Google Patents

一种基于空间近邻关系的甲骨文自动标注方法 Download PDF

Info

Publication number
CN111291750B
CN111291750B CN202010072173.XA CN202010072173A CN111291750B CN 111291750 B CN111291750 B CN 111291750B CN 202010072173 A CN202010072173 A CN 202010072173A CN 111291750 B CN111291750 B CN 111291750B
Authority
CN
China
Prior art keywords
oracle
character image
character
bone
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010072173.XA
Other languages
English (en)
Other versions
CN111291750A (zh
Inventor
张重生
曹爽
史先进
凡高娟
门艺
夏瑞雪
沈夏炯
莫伯峰
余波
郑逢斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University
Original Assignee
Henan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University filed Critical Henan University
Priority to CN202010072173.XA priority Critical patent/CN111291750B/zh
Publication of CN111291750A publication Critical patent/CN111291750A/zh
Application granted granted Critical
Publication of CN111291750B publication Critical patent/CN111291750B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于空间近邻关系的甲骨文自动标注方法,包括以下步骤:A:对甲骨字符进行定位;B:对甲骨字符图像进行识别;C:选取待定锚点甲骨字;D:选取锚点甲骨字符图像;E:判断锚点甲骨字在甲骨字原文中的位置,进入下一个甲骨字符图像和/或上一个甲骨字符图像搜索;F:进行下一个甲骨字符图像搜索;G:进行上一个甲骨字符图像搜索;H:进行下一个和上一个甲骨字符图像搜索;I:完成甲骨字符图像的字符级别的标注。本发明能够快速高效地实现甲骨文拓片图像的字符级别的标注,即在甲骨文拓片图像上自动定位出甲骨文字位置,并对应显示出相应的甲骨字。

Description

一种基于空间近邻关系的甲骨文自动标注方法
技术领域
本发明涉及一种甲骨文自动标注方法,尤其涉及一种基于空间近邻关系的甲骨文自动标注方法。
背景技术
甲骨文是迄今为止我国发现的年代最早的成熟文字系统,是汉字的源头和中华优秀传统文化的根脉。甲骨文的研究,始终受到国家与社会各方的高度重视。由于甲骨文字存在年代久远、甲骨残缺和甲骨图像不清晰等原因,目前可识字仅有3000余个,仍存在大量的不可识字。同时,不少甲骨文字在古文字领域内仍存在歧义现象,对甲骨文识别带来巨大的挑战。
随着图像检测和图像识别算法的广泛应用,基于图像检测和图像识别算法的甲骨文字研究也得到了快速发展。在涌现的大量图像检测和图像识别算法中,较为常见的是基于文本行或者文本序列的识别。现有识别方式大多通过构建按文本行标注的数据集,进而对图像进行检测和识别,来验证其算法的准确性。然而在甲骨文图像数据集内,由于每一句的甲骨文相对分散,基于文本行的图像识别存在很大的困难。同时,甲骨图像本身还存在大量纹路,进一步加剧了图像识别的困难。
基于上述情况,如何高效的进行基于字符级的甲骨文图像识别,其关键问题在于如何实现基于字符的数据标注。现有的甲骨标注中,仅仅对每个甲骨文拓片图像提供了篇幅级别的标注,即该甲骨文拓片图像中有哪几句话,每句话中有哪些文字,但没有提供每幅图像中、每句话以及每句话中的每个甲骨字在甲骨文拓片图像中的具体坐标位置(矩形框),而无法实现字符级别的甲骨图像标注。而要实现字符级别的甲骨图像标注,在现有技术环境下,只能通过在甲骨文拓片上进行大量的人工标注,且需要大量古文字领域专业人士的参与,同时还需耗费大量的人力、物力、财力和时间成本。
发明内容
本发明的目的是提供一种基于空间近邻关系的甲骨文自动标注方法,能够结合现有甲骨文拓片图像及该甲骨文拓片图像的篇幅级别的标注,快速高效地实现甲骨文拓片图像的字符级别的标注,即在甲骨文拓片图像上自动定位出甲骨文字位置,并对应显示出相应的甲骨字。
本发明采用下述技术方案:
一种基于空间近邻关系的甲骨文自动标注方法,包括以下步骤:
A:使用文字定位算法,对甲骨文拓片图像上的每一个甲骨字符进行定位并得到定位结果;
B:使用甲骨文识别算法,对甲骨文拓片图像上的每一个甲骨字符图像进行识别,并将每一个甲骨字符图像的识别结果按照可能性从大到小排序,输出每一个甲骨字符图像的前K个识别结果;
C:根据给定的甲骨字原文,将甲骨字原文中所有的甲骨字逐一在现有甲骨文数据库中进行检索,选取出现频率不小于Q次的甲骨字作为待定锚点甲骨字;
D:将步骤C中得到的所有的待定锚点甲骨字,与步骤B中得到的每一个甲骨字符图像的前K个识别结果进行对比,选取出待定锚点甲骨字和识别结果中共有的甲骨字作为锚点甲骨字,锚点甲骨字所对应的甲骨字符图像作为锚点甲骨字符图像;
E:判断步骤D中得到的锚点甲骨字在甲骨字原文中的位置,若锚点甲骨字在甲骨字原文中为第一个甲骨字,则进入步骤F;若锚点甲骨字在甲骨字原文中为最后一个甲骨字,则进入步骤G;锚点甲骨字在甲骨字原文中为中间的甲骨字,则进入步骤H;
F:以确定的锚点甲骨字符图像的坐标为出发点,在甲骨文拓片图像上寻找锚点甲骨字符图像的下一个甲骨字符图像,并确定下一个甲骨字符图像的坐标,然后按照可能性从大到小排序,输出前P个甲骨字符图像的坐标;然后进入步骤I;
G:以确定的锚点甲骨字符图像的坐标为出发点,在甲骨文拓片图像上寻找锚点甲骨字符图像的上一个甲骨字符图像,并确定上一个甲骨字符图像的坐标,然后按照可能性从大到小排序,输出前P个甲骨字符图像的坐标;然后进入步骤I;
H:以确定的锚点甲骨字符图像的坐标为出发点,分别使用步骤F和步骤G中的方法,在甲骨文拓片图像上先后寻找锚点甲骨字符图像的下一个和上一个甲骨字符图像,并确定下一个和上一个甲骨字符图像的坐标,然后按照可能性从大到小排序,分别输出下一个甲骨字符图像的前P个可能结果和上一个甲骨字符图像的前P个可能结果及所对应的甲骨字符图像的坐标;然后进入步骤I;
I:根据得到的下一个甲骨字符图像的P个可能结果和/或上一个甲骨字符图像的前P个可能结果所对应的甲骨字符图像及甲骨字符图像坐标,对P个可能结果中的每一个甲骨字符图像,首先按照步骤B中的方法分别输出该甲骨字符图像的前K个识别结果,然后判断这K个识别结果中是否包含了锚点甲骨字在甲骨字原文中所对应的下一个和/或上一个甲骨字,若包含,则将该甲骨字符图像所对应的甲骨字标注为锚点甲骨字在甲骨字原文中所对应的下一个和/或上一个甲骨字,完成该甲骨字符图像的字符级别的标注。
所述的步骤A中,定位结果为包含对应甲骨字符的矩形框,矩形框的坐标包含矩形框左上顶点的坐标(x1,y1)和右下顶点的坐标(x2,y2);定义甲骨文拓片图像上的每一个甲骨文字为一个甲骨字符,甲骨文拓片图像上每个矩形框构成的图像称为甲骨字符图像,甲骨字符图像的坐标表示为(x1,y1,x2,y2)。
所述的步骤F中,采用先分列后切割的搜索方法,在甲骨文拓片图像上寻找位于锚点甲骨字符图像之后的下一个甲骨字符图像及其坐标;
先分列后切割的搜索方法包含以下具体步骤:
F11:对步骤A中定位得到的所有的甲骨字符图像,按照甲骨字符图像的左上角顶点的纵坐标的值y1进行从小到大的排序,然后建立原始甲骨字符图像集合和待定甲骨字符图像集合,原始甲骨字符图像集合和待定甲骨字符图像集合均初始化为排序后的所有甲骨字符图像组成的集合;
F12:对原始甲骨字符图像集合中的甲骨字符图像进行分列处理,按照排序后两个甲骨字符图像在水平方向上投影的重合度判断两个甲骨字符图像是否位于同一列,直至排序后的所有甲骨字符图像均划分至对应的确定列集合中;
F13:对于经步骤F12得到的经分列后的每个确定列集合中的甲骨字符图像进行切割处理,依次对每个确定列集合中相邻的两个甲骨字符图像进行竖直间距计算,利用得到的竖直间距判断每个确定列集合中相邻的两个甲骨字符图像是否为同一确定列集合,最终得到经切割后的若干确定列集合;
F14:从步骤F13得到的经切割后的若干确定列集合中,依据其余的甲骨字符图像与锚点甲骨字符图像的位置关系,寻找锚点甲骨字符图像的下一个甲骨字符图像的可能结果。
所述的步骤F12中分列处理包含以下具体步骤:
F121:新建确定列集合并初始化确定列集合为空,选取原始甲骨字符图像集合中的第一个甲骨字符图像,将其定义为该确定列集合的第一个甲骨字符图像,然后将该甲骨字符图像从待定甲骨字符图像集合中移除,进入步骤F122;
F122:以原始甲骨字符图像集合中的第一个甲骨字符图像在x轴上投影得到的两个横坐标值x1,x2为基准,与原始甲骨字符图像集合中的第二个甲骨字符图像在x轴上投影后的两个横坐标值进行投影重合度计算,通过比较投影重合度与所设定的第一投影重合度阈值的大小关系,判断第二个甲骨字符图像是否与第一个甲骨字符图像位于同一个确定列集合;若第一个和第二个甲骨字符图像的投影重合度大于等于第一投影重合度阈值,进入步骤F123;若第一个和第二个甲骨字符图像的投影重合度小于第一投影重合度阈值,进入步骤F126;
F123:若原始甲骨字符图像集合中的第一个和原始甲骨字符图像集合中的第二个甲骨字符图像的投影重合度大于等于第一投影重合度阈值,则判定第二个甲骨字符图像与第一个甲骨字符图像位于同一个确定列集合,然后将原始甲骨字符图像集合中的第二个甲骨字符图像放入确定列集合,并将第二个甲骨字符图像从待定甲骨字符图像集合移除;然后以原始甲骨字符图像集合中的第二个甲骨字符图像在x轴上投影后的两个横坐标值为基准,与原始甲骨字符图像集合中的第三个甲骨字符图像在x轴上投影后的两个横坐标值进行投影重合度计算,比较投影重合度与所设定的第一投影重合度阈值的大小关系;若原始甲骨字符图像集合中的第二个和第三个甲骨字符图像的投影重合度大于等于第一投影重合度阈值,进入步骤F124;若原始甲骨字符图像集合中的第二个和第三个甲骨字符图像的投影重合度小于第一投影重合度阈值,进入步骤F125;
F124:若原始甲骨字符图像集合中的第二个和第三个甲骨字符图像的投影重合度大于等于第一投影重合度阈值,则判定原始甲骨字符图像集合中的第三个甲骨字符图像与原始甲骨字符图像集合中的第一个甲骨字符图像位于同一确定列集合,然后将原始甲骨字符图像集合中的第三个甲骨字符图像放入确定列集合,并将第三个甲骨字符图像从待定甲骨字符图像集合移除;然后以原始甲骨字符图像集合中的第三个甲骨字符图像在x轴上投影后的两个横坐标值为基准,与原始甲骨字符图像集合中的第四个甲骨字符图像在x轴上投影后的两个横坐标值进行投影重合度计算,判断第四个甲骨字符图像是否与第一个甲骨字符图像位于同一确定列集合;然后照此方法继续判断;
F125:若原始甲骨字符图像集合中的第二个和第三个甲骨字符图像的投影重合度小于第一投影重合度阈值,则判定原始甲骨字符图像集合中的第三个甲骨字符图像不与第一个甲骨字符图像位于同一确定列集合;然后继续以原始甲骨字符图像集合中的第二个甲骨字符图像在x轴上投影后的两个横坐标值为基准,与原始甲骨字符图像集合中的第四个甲骨字符图像在x轴上投影后的两个横坐标值进行投影重合度计算,比较投影重合度与所设定的第一投影重合度阈值的大小关系,判断第四个甲骨字符图像是否与第一个甲骨字符图像位于同一确定列集合;然后照此方法继续判断;
F126:若原始甲骨字符图像集合中的第一个和原始甲骨字符图像集合中的第二个甲骨字符图像的投影重合度小于第一投影重合度阈值,则判定第二个甲骨字符图像不与第一个甲骨字符图像位于同一确定列集合;然后继续以原始甲骨字符图像集合中的第一个甲骨字符图像在x轴上投影后的两个横坐标值为基准,与原始甲骨字符图像集合中的第三个甲骨字符图像在x轴上的坐标进行投影重合度计算,比较投影重合度与所设定的第一投影重合度阈值的大小关系,判断第三个甲骨字符图像是否与第一个甲骨字符图像位于同一确定列集合;若原始甲骨字符图像集合中的第一个和原始甲骨字符图像集合中的第三个甲骨字符图像的投影重合度大于等于第一投影重合度阈值,进入步骤F127;若原始甲骨字符图像集合中的第一个和原始甲骨字符图像集合中的第三个甲骨字符图像的投影重合度小于第一投影重合度阈值,进入步骤F128;
F127:若原始甲骨字符图像集合中的第一个和原始甲骨字符图像集合中的第三个甲骨字符图像的投影重合度大于等于第一投影重合度阈值,则判定原始甲骨字符图像集合中的第三个甲骨字符图像与第一个甲骨字符图像位于同一确定列集合,然后将原始甲骨字符图像集合中的第三个甲骨字符图像放入确定列集合,并将第三个甲骨字符图像从待定甲骨字符图像集合移除;然后以原始甲骨字符图像集合中的第三个甲骨字符图像在x轴上投影后的两个横坐标值为基准,与原始甲骨字符图像集合中的第四个甲骨字符图像在x轴上投影后的两个横坐标值进行投影重合度计算,判断第四个甲骨字符图像是否与第一个甲骨字符图像位于同一确定列集合;然后照此方法继续判断;
F128:若原始甲骨字符图像集合中的第一个和原始甲骨字符图像集合中的第三个甲骨字符图像的投影重合度小于第一投影重合度阈值,则判定原始甲骨字符图像集合中的第三个甲骨字符图像不与第一个甲骨字符图像位于同一确定列集合;然后继续以原始甲骨字符图像集合中的第一个甲骨字符图像在x轴上投影后的两个横坐标值为基准,与原始甲骨字符图像集合中的第四个甲骨字符图像在x轴上投影后的两个横坐标值进行投影重合度计算,根据投影重合度与所设定的第一投影重合度阈值的大小关系,判断原始甲骨字符图像集合中的第四个甲骨字符图像是否与第一个甲骨字符图像位于同一确定列集合;然后照此方法继续判断;
F129:当原始甲骨字符图像集合中的最后一个甲骨字符图像完成判定后,输出确定列集合,清空原始甲骨字符图像集合,然后将待定甲骨字符图像集合赋值给原始甲骨字符图像集合,然对原始甲骨字符图像集合中所有的甲骨字符图像按照步骤F121至步骤F129的方法继续判断,直至排序后的所有的甲骨字符图像均划分至对应的确定列集合。
所述的步骤F13包括以下具体步骤:
F131:计算切割阈值,对于步骤F12分列后得到的每个确定列集合,分别计算该集合中所有相邻的两个甲骨字符图像的竖直间距,将该竖直间距的值插入到竖直间距集合中,当所有的确定列集合计算完毕后,对竖直间距集合中的元素进行从小到大排序,然后求竖直间距集合的中位数,作为切割阈值;
F132:对于经步骤F12分列后得到的每个确定列集合进行切割处理,依次对当前的确定列集合中两个相邻的甲骨字符图像进行竖直间距计算,并将得到的竖直间距与切割阈值进行比较,若竖直间距大于等于切割阈值,则从这两个甲骨字符图像的中间位置进行切割,将当前的确定列集合切割为两个确定列集合;若两个相邻的甲骨字符图像的竖直间距小于切割阈值,则不进行切割处理;对所有的确定列集合递归地执行上述切割操作,直到没有新的确定列集合产生;最终得到经切割操作后的若干确定列集合。
所述的步骤F14中寻找锚点甲骨字符图像的下一个甲骨字符图像的可能结果,包括如下具体步骤:
F141:在步骤F13所得到的经切割后的若干确定列集合中,确定锚点甲骨字符图像的所在的确定列集合;然后进入步骤F142;
F142:判断锚点甲骨字符图像的所在的确定列集合中,锚点甲骨字符图像是否存在下一个甲骨字符图像;若存在,则选取位于锚点甲骨字符图像的下一个甲骨字符图像,然后进入步骤F143;若不存在,则直接进入步骤F143;
F143:在经切割后的若干确定列集合中,除去锚点甲骨字符图像所在的确定列集合后,选取其他每个确定列集合中的第一个甲骨字符图像,然后从得到的所有的第一个甲骨字符图像中剔除满足以下任意一个条件的甲骨字符图像;
条件1:位于确定列集合中的第一个甲骨字符图像在锚点甲骨字符图像的上方,且该第一个甲骨字符图像与锚点甲骨字符图像在x轴上的投影重合度大于等于所设定的第一投影重合度阈值;
条件2:位于确定列集合中的第一个甲骨字符图像在锚点甲骨字符图像的下方,且该第一个甲骨字符图像与锚点甲骨字符图像的竖直间距大于等于所设定的切割阈值的M倍;
将完成剔除步骤后所剩余的其他所有确定列集合中的第一个甲骨字符图像,分别与锚点甲骨字符图像进行水平间距的计算,并根据得到的水平间距从小到大排序;
若步骤F142中存在与锚点甲骨字符图像同确定列集合的下一个甲骨字符图像,则将该下一个甲骨字符图像排为输出的下一个甲骨字符图像的第1个可能结果,然后将根据水平间距排序得到的前P-1个甲骨字符图像的可能结果,作为下一个甲骨字符图像的第二个至第P个可能结果;然后同时输出上述P个可能结果所对应的甲骨字符图像的坐标;
若步骤F142中不存在与锚点甲骨字符图像同确定列集合的下一个甲骨字符图像,根据水平间距排序得到的前P个甲骨字符图像的可能结果,作为下一个甲骨字符图像的第1个至第P个可能结果;然后同时输出上述P个可能结果所对应的甲骨字符图像的坐标;
其中,计算两个甲骨字符图像的水平间距时,分别求每个甲骨字符图像投影到x轴上得到的两个横坐标值的中点,然后计算得到两个甲骨字符图像对应的中点之间的距离,作为两个甲骨字符图像的水平间距。设甲骨字符图像a与甲骨字符图像b之间的坐标分别为(xa1,ya1,xa2,ya2)和(xb1,xb2,yb1,yb2),则甲骨字符图像a与甲骨字符图像b之间的水平间距为
Figure BDA0002377570020000071
所述的步骤G中,采用先分列后切割的搜索方法,在甲骨文拓片图像上寻找锚点甲骨字符图像的上一个甲骨字符图像及其坐标:
先分列后切割的搜索方法包含以下具体步骤:
G11:对步骤A中定位得到的所有的甲骨字符图像,按照甲骨字符图像的左上角顶点的纵坐标的值y1进行从小到大的排序,然后建立原始甲骨字符图像集合和待定甲骨字符图像集合,原始甲骨字符图像集合和待定甲骨字符图像集合均初始化为排序后的所有甲骨字符图像组成的集合;
G12:对原始甲骨字符图像集合中的甲骨字符图像进行分列处理,按照排序后两个甲骨字符图像在水平方向上投影的重合度判断两个甲骨字符图像是否位于同一确定列集合,直至排序后的所有甲骨字符图像均划分至对应的确定列集合中;
G13:对于经步骤G12得到的经分列后的每个确定列集合中的甲骨字符图像进行切割处理,依次对每个确定列集合中相邻的两个甲骨字符图像进行竖直间距计算,利用得到的竖直间距判断每个确定列集合中相邻的两个甲骨字符图像是否为同一确定列集合,最终得到经切割后的若干确定列集合;
G14:从步骤G13得到的经切割后的若干确定列集合中,依据待定甲骨字符图像与锚点甲骨字符图像的位置关系,寻找锚点甲骨字符图像的上一个甲骨字符图像的可能结果。
所述的步骤G14中分列处理包含以下具体步骤:
G141:在步骤G13所得到的经切割后的若干确定列集合中,确定锚点甲骨字符图像的所在的确定列集合;然后进入步骤G142;
G142:判断锚点甲骨字符图像的所在的确定列集合中,锚点甲骨字符图像是否存在上一个甲骨字符图像;若存在,则选取位于锚点甲骨字符图像的上一个甲骨字符图像,然后进入步骤G143;若不存在,则直接进入步骤G143;
G143:在经切割后的若干确定列集合中,除去锚点甲骨字符图像所在的确定列集合后,选取其他每个确定列集合中最后一个甲骨字符图像,然后从得到的所有的最后一个甲骨字符图像中剔除满足以下任意一个条件的甲骨字符图像,
条件1:位于确定列集合的最后一个甲骨字符图像在锚点甲骨字符图像的下方,且该最后一个甲骨字符图像与锚点甲骨字符图像在x轴上的投影重合度大于等于所设定的第一投影重合度阈值;
条件2:位于确定列集合的最后一个甲骨字符图像在锚点甲骨字符图像的上方,且该最后一个甲骨字符图像与锚点甲骨字符图像的竖直间距大于等于所设定的切割阈值的M倍;
将完成剔除步骤后所剩余的其他所有确定列集合中的最后一个甲骨字符图像,分别与锚点甲骨字符图像进行水平间距的绝对值计算,并根据得到的水平间距的绝对值从小到大排序;
若步骤G142中存在与锚点甲骨字符图像同确定列集合的上一个甲骨字符图像,则将该上一个甲骨字符图像排为输出的上一个甲骨字符图像的第1个可能结果,然后将根据水平间距排序得到的前P-1个甲骨字符图像的可能结果,作为上一个甲骨字符图像的第二个至第P个可能结果;然后同时输出上述P个可能结果所对应的甲骨字符图像的坐标;
若步骤G142中不存在与锚点甲骨字符图像同确定列集合的上一个甲骨字符图像,根据水平间距排序得到的前P个甲骨字符图像的可能结果,作为上一个甲骨字符图像的第1个至第P个可能结果;然后同时输出上述P个可能结果所对应的甲骨字符图像的坐标;
其中,计算两个甲骨字符图像的水平间距时,分别求每个甲骨字符图像投影到x轴上得到的两个横坐标值的中点,然后计算得到两个甲骨字符图像对应的中点之间的距离,作为两个甲骨字符图像的水平间距。设甲骨字符图像a与甲骨字符图像b之间的坐标分别为(xa1,ya1,xa2,ya2)和(xb1,yb1xb2,yb2),则甲骨字符图像a与甲骨字符图像b之间的水平间距为
Figure BDA0002377570020000081
所述的步骤B中的K取值为5;步骤C中的Q取值为50。
所述的第一投影重合度阈值为0.5。
本发明能够结合现有甲骨文拓片图像及该甲骨文拓片图像的篇幅级别的标注,通过判定锚点甲骨字在甲骨字原文中的位置,通过特殊设计的算法查找锚点甲骨字符图像的上一个和/或下一个甲骨字符图像,最终能够快速高效地实现甲骨文拓片图像的字符级别的标注,即在甲骨文拓片图像上自动定位出甲骨文字位置,并对应显示出相应的甲骨字。
附图说明
图1为本发明的流程图。
具体实施方式
以下结合附图和实施例对本发明作以详细的描述:
如图1所示,本发明所述的基于空间近邻关系的甲骨文自动标注方法,包括以下步骤:
A:使用文字定位算法,对甲骨文拓片图像上的每一个甲骨字符进行定位并得到定位结果,定位结果为包含对应甲骨字符的矩形框,矩形框的坐标包含矩形框左上顶点的坐标(x1,y1)和右下顶点的坐标(x2,y2);定义甲骨文拓片图像上的每一个甲骨文字为一个甲骨字符,甲骨文拓片图像上每个矩形框构成的图像称为甲骨字符图像,甲骨字符图像的坐标表示为(x1,y1,x2,y2);
其中,文字定位算法为本领域常规技术,例如East文本检测算法;
B:使用甲骨文识别算法,对甲骨文拓片图像上的每一个甲骨字符图像进行识别,并将每一个甲骨字符图像的识别结果按照可能性从大到小排序,输出每一个甲骨字符图像的前K个识别结果;
其中,甲骨文识别算法为本领域常规技术,例如ASTER文本识别算法;本实施例中,K为5;
C:根据给定的甲骨字原文,将甲骨字原文中所有的甲骨字逐一在现有甲骨文数据库中进行检索,选取出现频率不小于Q次的甲骨字作为待定锚点甲骨字;
其中,甲骨字原文为甲骨文拓片图像的篇幅级别的标注中的一部分,由多个甲骨字组成;本实施例中,Q为50次;
D:将步骤C中得到的所有的待定锚点甲骨字,与步骤B中得到的每一个甲骨字符图像的前K个识别结果进行对比,选取出待定锚点甲骨字和识别结果中共有的甲骨字作为确定锚点甲骨字,确定锚点甲骨字所对应的甲骨字符图像作为锚点甲骨字符图像;
E:判断步骤D中得到的确定锚点甲骨字在甲骨字原文中的位置,若确定锚点甲骨字在甲骨字原文中为第一个甲骨字,则进入步骤F;若确定锚点甲骨字在甲骨字原文中为最后一个甲骨字,则进入步骤G;若确定锚点甲骨字在甲骨字原文中为中间的甲骨字,则进入步骤H;
F:以确定的锚点甲骨字符图像的坐标为出发点,在甲骨文拓片图像上寻找锚点甲骨字符图像的下一个甲骨字符图像,并确定下一个甲骨字符图像的坐标,然后按照可能性从大到小排序,输出前P个甲骨字符图像的坐标;然后进入步骤I;
本发明中,采用先分列后切割的搜索方法,在甲骨文拓片图像上寻找位于锚点甲骨字符图像之后的下一个甲骨字符图像及其坐标:
先分列后切割的搜索方法包含以下具体步骤:
F11:对步骤A中定位得到的所有的甲骨字符图像,按照甲骨字符图像的左上角顶点的纵坐标的值y1进行从小到大的排序,然后建立原始甲骨字符图像集合和待定甲骨字符图像集合,原始甲骨字符图像集合和待定甲骨字符图像集合均初始化为排序后的所有甲骨字符图像组成的集合;
本实施例中,根据大量分析得到,甲骨文拓片图像上的甲骨字符分布具有一定的规律,绝大多数的甲骨拓片图像中,甲骨文书写顺序为从上到下、从左到右或者从右到左,极少数量的甲骨拓片图像中的书写顺序为从下到上。因此一般情况下,在甲骨文拓片图像的同一列上,坐标较小的甲骨字在甲骨字原文中优先于坐标较大的甲骨字,坐标较小的甲骨字代表其位于甲骨文拓片图像的上方。
F12:对原始甲骨字符图像集合中的甲骨字符图像进行分列处理,按照排序后两个甲骨字符图像在水平方向上投影的重合度判断两个甲骨字符图像是否位于同一列,直至排序后的所有甲骨字符图像均划分至对应的确定列集合中;
分列处理包含以下具体步骤:
F121:新建确定列集合并初始化确定列集合为空,选取原始甲骨字符图像集合中的第一个甲骨字符图像,将其定义为该确定列集合的第一个甲骨字符图像,然后将该甲骨字符图像从待定甲骨字符图像集合中移除,进入步骤F122;
F122:以原始甲骨字符图像集合中的第一个甲骨字符图像在x轴上投影得到的两个横坐标值x1,x2为基准,与原始甲骨字符图像集合中的第二个甲骨字符图像在x轴上投影后的两个横坐标值进行投影重合度计算,通过比较投影重合度与所设定的第一投影重合度阈值的大小关系,判断第二个甲骨字符图像是否与第一个甲骨字符图像位于同一个确定列集合;若第一个和第二个甲骨字符图像的投影重合度大于等于第一投影重合度阈值,进入步骤F123;若第一个和第二个甲骨字符图像的投影重合度小于第一投影重合度阈值,进入步骤F126;
F123:若原始甲骨字符图像集合中的第一个和原始甲骨字符图像集合中的第二个甲骨字符图像的投影重合度大于等于第一投影重合度阈值,则判定第二个甲骨字符图像与第一个甲骨字符图像位于同一个确定列集合,然后将原始甲骨字符图像集合中的第二个甲骨字符图像放入确定列集合,并将第二个甲骨字符图像从待定甲骨字符图像集合移除;然后以原始甲骨字符图像集合中的第二个甲骨字符图像在x轴上投影后的两个横坐标值为基准,与原始甲骨字符图像集合中的第三个甲骨字符图像在x轴上投影后的两个横坐标值进行投影重合度计算,比较投影重合度与所设定的第一投影重合度阈值的大小关系;若原始甲骨字符图像集合中的第二个和第三个甲骨字符图像的投影重合度大于等于第一投影重合度阈值,进入步骤F124;若原始甲骨字符图像集合中的第二个和第三个甲骨字符图像的投影重合度小于第一投影重合度阈值,进入步骤F125;
F124:若原始甲骨字符图像集合中的第二个和第三个甲骨字符图像的投影重合度大于等于第一投影重合度阈值,则判定原始甲骨字符图像集合中的第三个甲骨字符图像与原始甲骨字符图像集合中的第一个甲骨字符图像位于同一确定列集合,然后将原始甲骨字符图像集合中的第三个甲骨字符图像放入确定列集合,并将第三个甲骨字符图像从待定甲骨字符图像集合移除;然后以原始甲骨字符图像集合中的第三个甲骨字符图像在x轴上投影后的两个横坐标值为基准,与原始甲骨字符图像集合中的第四个甲骨字符图像在x轴上投影后的两个横坐标值进行投影重合度计算,判断第四个甲骨字符图像是否与第一个甲骨字符图像位于同一确定列;然后照此方法继续判断;
F125:若原始甲骨字符图像集合中的第二个和第三个甲骨字符图像的投影重合度小于第一投影重合度阈值,则判定原始甲骨字符图像集合中的第三个甲骨字符图像不与第一个甲骨字符图像位于同一确定列集合;然后继续以原始甲骨字符图像集合中的第二个甲骨字符图像在x轴上投影后的两个横坐标值为基准,与原始甲骨字符图像集合中的第四个甲骨字符图像在x轴上投影后的两个横坐标值进行投影重合度计算,比较投影重合度与所设定的第一投影重合度阈值的大小关系,判断第四个甲骨字符图像是否与第一个甲骨字符图像位于同一确定列集合;然后照此方法继续判断;
F126:若原始甲骨字符图像集合中的第一个和原始甲骨字符图像集合中的第二个甲骨字符图像的投影重合度小于第一投影重合度阈值,则判定第二个甲骨字符图像不与第一个甲骨字符图像位于同一确定列集合;然后继续以原始甲骨字符图像集合中的第一个甲骨字符图像在x轴上投影后的两个横坐标值为基准,与原始甲骨字符图像集合中的第三个甲骨字符图像在x轴上的坐标进行投影重合度计算,比较投影重合度与所设定的第一投影重合度阈值的大小关系,判断第三个甲骨字符图像是否与第一个甲骨字符图像位于同一确定列集合;若原始甲骨字符图像集合中的第一个和原始甲骨字符图像集合中的第三个甲骨字符图像的投影重合度大于等于第一投影重合度阈值,进入步骤F127;若原始甲骨字符图像集合中的第一个和原始甲骨字符图像集合中的第三个甲骨字符图像的投影重合度小于第一投影重合度阈值,进入步骤F128;
F127:若原始甲骨字符图像集合中的第一个和原始甲骨字符图像集合中的第三个甲骨字符图像的投影重合度大于等于第一投影重合度阈值,则判定原始甲骨字符图像集合中的第三个甲骨字符图像与第一个甲骨字符图像位于同一确定列集合,然后将原始甲骨字符图像集合中的第三个甲骨字符图像放入确定列集合,并将第三个甲骨字符图像从待定甲骨字符图像集合移除;然后以原始甲骨字符图像集合中的第三个甲骨字符图像在x轴上投影后的两个横坐标值为基准,与原始甲骨字符图像集合中的第四个甲骨字符图像在x轴上投影后的两个横坐标值进行投影重合度计算,判断第四个甲骨字符图像是否与第一个甲骨字符图像位于同一确定列集合;然后照此方法继续判断;
F128:若原始甲骨字符图像集合中的第一个和原始甲骨字符图像集合中的第三个甲骨字符图像的投影重合度小于第一投影重合度阈值,则判定原始甲骨字符图像集合中的第三个甲骨字符图像不与第一个甲骨字符图像位于同一确定列集合;然后继续以原始甲骨字符图像集合中的第一个甲骨字符图像在x轴上投影后的两个横坐标值为基准,与原始甲骨字符图像集合中的第四个甲骨字符图像在x轴上投影后的两个横坐标值进行投影重合度计算,根据投影重合度与所设定的第一投影重合度阈值的大小关系,判断原始甲骨字符图像集合中的第四个甲骨字符图像是否与第一个甲骨字符图像位于同一确定列集合;然后照此方法继续判断;
F129:当原始甲骨字符图像集合中的最后一个甲骨字符图像完成判定后,输出确定列集合,清空原始甲骨字符图像集合,然后将待定甲骨字符图像集合赋值给原始甲骨字符图像集合,然对原始甲骨字符图像集合中所有的甲骨字符图像按照步骤F121至步骤F129的方法继续判断,直至排序后的所有的甲骨字符图像均划分至对应的确定列集合。
本实施例中,投影重合度的计算方法为常规算法,所设定的第一投影重合度阈值为0.5,为便于理解,假设排序后的原始甲骨字符图像集合中有6幅甲骨字符图像,按顺序分别为甲骨字符图像a、甲骨字符图像b、甲骨字符图像c、甲骨字符图像d、甲骨字符图像e和甲骨字符图像f;
首先判断,甲骨字符图像a与甲骨字符图像b的投影重合度大于等于第一投影重合度阈值,则甲骨字符图像a与甲骨字符图像b为同一确定列集合;
继续判断,甲骨字符图像b与甲骨字符图像c的投影重合度小于第一投影重合度阈值,则甲骨字符图像b与甲骨字符图像c不为同一确定列集合;
继续判断,甲骨字符图像b与甲骨字符图像d的投影重合度小于第一投影重合度阈值,则甲骨字符图像b与甲骨字符图像d不为同一确定列集合;
继续判断,甲骨字符图像b与甲骨字符图像e的投影重合度大于等于第一投影重合度阈值,则甲骨字符图像b与甲骨字符图像e为同一确定列集合;
继续判断,甲骨字符图像e与甲骨字符图像f的投影重合度小于第一投影重合度阈值,则甲骨字符图像e与甲骨字符图像f不为同一确定列集合;
继续判断,甲骨字符图像c与甲骨字符图像d的投影重合度小于第一投影重合度阈值,则甲骨字符图像c与甲骨字符图像d不为同一确定列集合;
继续判断,甲骨字符图像c与甲骨字符图像f的投影重合度小于第一投影重合度阈值,则甲骨字符图像c与甲骨字符图像f不为同一确定列集合;
继续判断,甲骨字符图像d与甲骨字符图像f的投影重合度大于等于第一投影重合度阈值,则甲骨字符图像d与甲骨字符图像f为同一确定列集合;
综上得到,甲骨字符图像a、甲骨字符图像b和甲骨字符图像e位于第一确定列集合,甲骨字符图像c位于第二确定列集合,甲骨字符图像d和甲骨字符图像f位于第三确定列集合;
F13:对于经步骤F12得到的经分列后的每个确定列集合中的甲骨字符图像进行切割处理,依次对每个确定列集合中相邻的两个甲骨字符图像进行竖直间距计算,判断每个确定列集合中相邻的两个甲骨字符图像是否为同一确定列集合,最终得到经切割后的若干确定列集合;
F131:计算切割阈值,对于步骤F12分列后得到的每个确定列集合,分别计算该集合中所有相邻的两个甲骨字符图像的竖直间距,将该竖直间距的值插入到竖直间距集合中。当所有的确定列集合计算完毕后,对竖直间距集合中的元素进行从小到大排序,然后求竖直间距集合的中位数,作为切割阈值。
F132:对于经步骤F12分列后得到的每个确定列集合进行切割处理,依次对当前的确定列集合中两个相邻的甲骨字符图像进行竖直间距计算,并将得到的竖直间距与切割阈值进行比较,若竖直间距大于等于切割阈值,则从这两个甲骨字符图像的中间位置进行切割,将当前的确定列集合切割为两个确定列集合;若两个相邻的甲骨字符图像的竖直间距小于切割阈值,则不进行切割处理。对所有的确定列集合递归地执行上述切割操作,直到没有新的确定列集合产生。最终得到经切割操作后的若干确定列集合。
设原始甲骨字符图像集合包括甲骨字符图像a、甲骨字符图像b、甲骨字符图像c、甲骨字符图像d、甲骨字符图像e、甲骨字符图像f和甲骨字符图像g;设甲骨字符图像a、甲骨字符图像b、甲骨字符图像c和甲骨字符图像d组成第一个确定列集合,甲骨字符图像e、甲骨字符图像f和甲骨字符图像g组成第二个确定列集合。设甲骨字符图像a与甲骨字符图像b的竖直间距为2,甲骨字符图像b与甲骨字符图像c的竖直间距为4,甲骨字符图像c与甲骨字符图像d的竖直间距为5,甲骨字符图像e与甲骨字符图像f的竖直间距为7,甲骨字符图像f与甲骨字符图像g的竖直间距为8,所有竖直间距组成竖直间距集合集合T={2,4,5,7,8},则最终选取竖直间距集合T的中位数5作为切割阈值;
设甲骨字符图像a位于甲骨字符图像b上方,甲骨字符图像a与甲骨字符图像b之间的竖直间距,为甲骨字符图像a右下顶点的坐标中的纵坐标与甲骨字符图像b左上顶点的坐标中的纵坐标的差值,若甲骨字符图像a右下顶点的坐标为(xa2,ya2),甲骨字符图像b左上顶点的坐标为(xb1,yb1),则甲骨字符图像a与甲骨字符图像b之间的竖直间距为(yb1-ya2);
F14:从步骤F13得到的经切割后的若干确定列集合中,依据其余的甲骨字符图像与锚点甲骨字符图像的位置关系,寻找锚点甲骨字符图像的下一个甲骨字符图像的可能结果;
F141:在步骤F13所得到的经切割后的若干确定列集合中,确定锚点甲骨字符图像的所在确定列集合;然后进入步骤F142;
F142:判断锚点甲骨字符图像的所在确定列集合中,锚点甲骨字符图像是否存在下一个甲骨字符图像;若存在,则选取位于锚点甲骨字符图像的下一个甲骨字符图像,然后进入步骤F143;若不存在,则直接进入步骤F143;
F143:在经切割后的若干确定列集合中,除去锚点甲骨字符图像所在确定列集合后,选取其他每个确定列集合中的第一个甲骨字符图像,然后从得到的所有的第一个甲骨字符图像中剔除满足以下任意一个条件的甲骨字符图像;
条件1:位于确定列集合中的第一个甲骨字符图像在锚点甲骨字符图像的上方,且该第一个甲骨字符图像与锚点甲骨字符图像在x轴上的投影重合度大于等于所设定的第一投影重合度阈值;
条件1的设定,能够排除步骤F13中因切割错误将本为同一确定列集合而被误分为两个确定列集合的甲骨字符图像;
条件2:位于确定列集合中的第一个甲骨字符图像在锚点甲骨字符图像的下方,且该第一个甲骨字符图像与锚点甲骨字符图像的竖直间距大于等于所设定的切割阈值的M倍;
条件2的设定,能够结果中保留在给定的范围内在步骤F13中因切割错误本与锚点字符图像为同一确定列集合而被误分为两个确定列集合的甲骨字符图像,即本为同一确定列集合但因距离较远被误切割划分为其他确定列集合的甲骨字符图像;本实施例中,M为0至15;能够限制向下搜索范围。
将完成剔除步骤后所剩余的其他所有确定列集合中的第一个甲骨字符图像,分别与锚点甲骨字符图像进行水平间距的计算,并根据得到的水平间距从小到大排序;
若步骤F142中存在与锚点甲骨字符图像同确定列集合的下一个甲骨字符图像,则将该下一个甲骨字符图像排为输出的下一个甲骨字符图像的第1个可能结果,然后将根据水平间距排序得到的前P-1个甲骨字符图像的可能结果,作为下一个甲骨字符图像的第二个至第P个可能结果;然后同时输出上述P个可能结果所对应的甲骨字符图像的坐标;
若步骤F142中不存在与锚点甲骨字符图像同确定列集合的下一个甲骨字符图像,根据水平间距排序得到的前P个甲骨字符图像的可能结果,作为下一个甲骨字符图像的第1个至第P个可能结果;然后同时输出上述P个可能结果所对应的甲骨字符图像的坐标;
其中,计算两个甲骨字符图像的水平间距时,分别求每个甲骨字符图像投影到x轴上得到的两个横坐标值的中点,然后计算得到两个甲骨字符图像对应的中点之间的距离,作为两个甲骨字符图像的水平间距。设甲骨字符图像a与甲骨字符图像b之间的坐标分别为(xa1,ya1,xa2,ya2)和(xb1,xb2,yb1,yb2),则甲骨字符图像a与甲骨字符图像b之间的水平间距为
Figure BDA0002377570020000151
根据经验得到,锚点甲骨字符图像的下一个甲骨字符图像,最大可能性为与该锚点甲骨字符图像同确定列集合的下一个甲骨字符图像,因此将其作为可能性最大的可能结果即第1个可能结果;但同时也应考虑若锚点甲骨字符图像位于排序后的该确定列集合的最后一个、切割步骤F13中本应切割为两个确定列集合却未切割或者在切割步骤F13中不该切割为两个确定列集合却被切割为两个确定列集合的情况,在这些情况下,锚点甲骨字符图像的下一个甲骨字符图像极可能为其他确定列集合中的第一个甲骨字幅图像,但这种情况的概率小于同确定列集合下一个的概率,因此将经水平间距从小到大排序后得到的可能结果依次作为第二个至第P个可能结果;保证所输出的可能结果能够按照其可能性大小由大到小排序输出;以提高判断的准确性。
G:以确定的锚点甲骨字符图像的坐标为出发点,在甲骨文拓片图像上寻找锚点甲骨字符图像的上一个甲骨字符图像,并确定上一个甲骨字符图像的坐标,然后按照可能性从大到小排序,输出前P个甲骨字符图像的坐标;然后进入步骤I;
本发明中,采用先分列后切割的搜索方法,在甲骨文拓片图像上寻找锚点甲骨字符图像的上一个甲骨字符图像及其坐标:
其中,先分列后切割的搜索方法包含以下具体步骤:
G11:对步骤A中定位得到的所有的甲骨字符图像,按照甲骨字符图像的左上角顶点的纵坐标的值y1进行从小到大的排序,然后建立原始甲骨字符图像集合和待定甲骨字符图像集合,原始甲骨字符图像集合和待定甲骨字符图像集合均初始化为排序后的所有甲骨字符图像组成的集合;
G12:对原始甲骨字符图像集合中的甲骨字符图像进行分列处理,按照排序后两个甲骨字符图像在水平方向上投影的重合度判断两个甲骨字符图像是否位于同一确定列集合,直至排序后的所有甲骨字符图像均划分至对应的确定列集合中;
步骤G12中分列处理的步骤与步骤F12中分列处理的步骤相同,在此不再赘述;
G13:对于经步骤G12得到的经分列后的每个确定列集合中的甲骨字符图像进行切割处理,依次对每个确定列集合中相邻的两个甲骨字符图像进行竖直间距计算,利用得到的竖直间距判断每个确定列集合中相邻的两个甲骨字符图像是否为同一确定列集合,最终得到经切割后的若干确定列集合;
步骤G13中切割处理的步骤与步骤F13中切割处理的步骤相同,在此不再赘述;
G14:从步骤G13得到的经切割后的若干确定列集合中,依据待定甲骨字符图像与锚点甲骨字符图像的位置关系,寻找锚点甲骨字符图像的上一个甲骨字符图像的可能结果;
G141:在步骤G13所得到的经切割后的若干确定列集合中,确定锚点甲骨字符图像的所在的确定列集合;然后进入步骤G142;
G142:判断锚点甲骨字符图像的所在的确定列集合中,锚点甲骨字符图像是否存在上一个甲骨字符图像;若存在,则选取位于锚点甲骨字符图像的上一个甲骨字符图像,然后进入步骤G143;若不存在,则直接进入步骤G143;
G143:在经切割后的若干确定列集合中,除去锚点甲骨字符图像所在的确定列集合后,选取其他每个确定列集合中最后一个甲骨字符图像,然后从得到的所有的最后一个甲骨字符图像中剔除满足以下任意一个条件的甲骨字符图像,
条件1:位于确定列集合的最后一个甲骨字符图像在锚点甲骨字符图像的下方,且该最后一个甲骨字符图像与锚点甲骨字符图像在x轴上的投影重合度大于等于所设定的第一投影重合度阈值;
条件1的设定,能够排除步骤G13中锚点甲骨字符图像下方的因切割错误将本与锚点甲骨字符图像为同一确定列集合而被误分为两个确定列集合的甲骨字符图像;
条件2:位于确定列集合的最后一个甲骨字符图像在锚点甲骨字符图像的上方,且该最后一个甲骨字符图像与锚点甲骨字符图像的竖直间距大于等于所设定的切割阈值的M倍;
条件2的设定,能够在结果中保留步骤G13中因切割错误将本为同一确定列集合而被误分为两个确定列集合的甲骨字符图像,即本为同一确定列集合但因距离较远被误切割划分为其他确定列集合的甲骨字符图像;本实施例中,M为0至15;能够限制向上搜索范围。
将完成剔除步骤后所剩余的其他所有确定列集合中的最后一个甲骨字符图像,分别与锚点甲骨字符图像进行水平间距计算,并根据得到的水平间距从小到大排序;
若步骤G142中存在与锚点甲骨字符图像同确定列集合的上一个甲骨字符图像,则将该上一个甲骨字符图像排为输出的上一个甲骨字符图像的第1个可能结果,然后将根据水平间距排序得到的前P-1个甲骨字符图像的可能结果,作为上一个甲骨字符图像的第二个至第P个可能结果;然后同时输出上述P个可能结果所对应的甲骨字符图像的坐标;
若步骤G142中不存在与锚点甲骨字符图像同确定列集合的上一个甲骨字符图像,根据水平间距排序得到的前P个甲骨字符图像的可能结果,作为上一个甲骨字符图像的第1个至第P个可能结果;然后同时输出上述P个可能结果所对应的甲骨字符图像的坐标;
其中,计算两个甲骨字符图像的水平间距时,分别求每个甲骨字符图像投影到x轴上得到的两个横坐标值的中点,然后计算得到两个甲骨字符图像对应的中点之间的距离,作为两个甲骨字符图像的水平间距。设甲骨字符图像a与甲骨字符图像b之间的坐标分别为(xa1,ya1,xa2,ya2)和(xb1,yb1xb2,yb2),则甲骨字符图像a与甲骨字符图像b之间的水平间距为
Figure BDA0002377570020000171
根据经验得到,锚点甲骨字符图像的上一个甲骨字符图像,最大可能性为与该锚点甲骨字符图像同一确定列集合的上一个甲骨字符图像,因此将其作为可能性最大的可能结果即第1个可能结果;但同时也应考虑若锚点甲骨字符图像位于排序后的该确定列集合的第一个、切割步骤G13中本应切割为两个确定列集合却未切割或者在切割步骤G13中不该切割为两和确定列集合却被切割为两个确定列集合的情况,在这些情况下,锚点甲骨字符图像的上一个甲骨字符图像极可能为其他确定列集合中的最后一个甲骨字幅图像,但这种情况的概率小于同确定列集合上一个的概率,因此将经水平间距从小到大排序后得到的可能结果依次作为第二个至第P个可能结果;保证所输出的可能结果能够按照其可能性大小由大到小排序输出;以提高判断的准确性。
H:以确定的锚点甲骨字符图像的坐标为出发点,分别使用步骤F和步骤G中的方法,在甲骨文拓片图像上先后寻找锚点甲骨字符图像的下一个和上一个甲骨字符图像,并确定下一个和上一个甲骨字符图像的坐标,然后按照可能性从大到小排序,分别输出下一个甲骨字符图像的前P个可能结果和上一个甲骨字符图像的前P个可能结果及所对应的甲骨字符图像的坐标;然后进入步骤I;
I:根据得到的下一个甲骨字符图像的P个可能结果和/或上一个甲骨字符图像的P个可能结果所对应的甲骨字符图像及甲骨字符图像坐标,对P个可能结果中的每一个甲骨字符图像,首先按照步骤B中的方法分别输出该甲骨字符图像的前K个识别结果,然后判断这K个识别结果中是否包含了锚点甲骨字在甲骨字原文中所对应的下一个和/或上一个甲骨字,若包含,则将该甲骨字符图像所对应的甲骨字标注为锚点甲骨字在甲骨字原文中所对应的下一个和/或上一个甲骨字,完成该甲骨字符图像的字符级别的标注。
步骤I中,若根据步骤F得到的下一个甲骨字符图像的P个可能结果所对应的甲骨字符图像及甲骨字符图像坐标,对P个可能结果中的每一个甲骨字符图像,首先按照步骤B中的方法分别输出该甲骨字符图像的前K个识别结果,然后判断这K个识别结果中是否包含了锚点甲骨字在甲骨字原文中所对应的下一个甲骨字,若包含,则将该甲骨字符图像所对应的甲骨字标注为锚点甲骨字在甲骨字原文中所对应的下一个甲骨字,完成该甲骨字符图像的字符级别的标注;
若根据步骤G得到的上一个甲骨字符图像的P个可能结果所对应的甲骨字符图像及甲骨字符图像坐标,对P个可能结果中的每一个甲骨字符图像,首先按照步骤B中的方法分别输出该甲骨字符图像的前K个识别结果,然后判断这K个识别结果中是否包含了锚点甲骨字在甲骨字原文中所对应的上一个甲骨字,若包含,则将该甲骨字符图像所对应的甲骨字标注为锚点甲骨字在甲骨字原文中所对应的上一个甲骨字,完成该甲骨字符图像的字符级别的标注;
若根据步骤H得到的下一个甲骨字符图像的P个可能结果和上一个甲骨字符图像的P个可能结果所对应的甲骨字符图像及甲骨字符图像坐标,,则分别对下一个甲骨字符图像和上一个甲骨字符图像的P个可能结果中的每一个甲骨字符图像,按照步骤B中的方法分别输出该甲骨字符图像的前K个识别结果,然后判断这K个识别结果中是否包含了锚点甲骨字在甲骨字原文中所对应的下一个和上一个甲骨字,若包含,则将该甲骨字符图像所对应的甲骨字标注为锚点甲骨字在甲骨字原文中所对应的下一个和上一个甲骨字,完成该甲骨字符图像的字符级别的标注。

Claims (10)

1.一种基于空间近邻关系的甲骨文自动标注方法,其特征在于,包括以下步骤:
A:使用文字定位算法,对甲骨文拓片图像上的每一个甲骨字符进行定位并得到定位结果;
B:使用甲骨文识别算法,对甲骨文拓片图像上的每一个甲骨字符图像进行识别,并将每一个甲骨字符图像的识别结果按照可能性从大到小排序,输出每一个甲骨字符图像的前K个识别结果;
C:根据给定的甲骨字原文,将甲骨字原文中所有的甲骨字逐一在现有甲骨文数据库中进行检索,选取出现频率不小于Q次的甲骨字作为待定锚点甲骨字;
D:将步骤C中得到的所有的待定锚点甲骨字,与步骤B中得到的每一个甲骨字符图像的前K个识别结果进行对比,选取出待定锚点甲骨字和识别结果中共有的甲骨字作为锚点甲骨字,锚点甲骨字所对应的甲骨字符图像作为锚点甲骨字符图像;
E:判断步骤D中得到的锚点甲骨字在甲骨字原文中的位置,若锚点甲骨字在甲骨字原文中为第一个甲骨字,则进入步骤F;若锚点甲骨字在甲骨字原文中为最后一个甲骨字,则进入步骤G;锚点甲骨字在甲骨字原文中为中间的甲骨字,则进入步骤H;
F:以确定的锚点甲骨字符图像的坐标为出发点,在甲骨文拓片图像上寻找锚点甲骨字符图像的下一个甲骨字符图像,并确定下一个甲骨字符图像的坐标,然后按照可能性从大到小排序,输出前P个甲骨字符图像的坐标;然后进入步骤I;
G:以确定的锚点甲骨字符图像的坐标为出发点,在甲骨文拓片图像上寻找锚点甲骨字符图像的上一个甲骨字符图像,并确定上一个甲骨字符图像的坐标,然后按照可能性从大到小排序,输出前P个甲骨字符图像的坐标;然后进入步骤I;
H:以确定的锚点甲骨字符图像的坐标为出发点,分别使用步骤F和步骤G中的方法,在甲骨文拓片图像上先后寻找锚点甲骨字符图像的下一个和上一个甲骨字符图像,并确定下一个和上一个甲骨字符图像的坐标,然后按照可能性从大到小排序,分别输出下一个甲骨字符图像的前P个可能结果和上一个甲骨字符图像的前P个可能结果及所对应的甲骨字符图像的坐标;然后进入步骤I;
I:根据得到的下一个甲骨字符图像的P个可能结果和/或上一个甲骨字符图像的前P个可能结果所对应的甲骨字符图像及甲骨字符图像坐标,对P个可能结果中的每一个甲骨字符图像,首先按照步骤B中的方法分别输出该甲骨字符图像的前K个识别结果,然后判断这K个识别结果中是否包含了锚点甲骨字在甲骨字原文中所对应的下一个和/或上一个甲骨字,若包含,则将该甲骨字符图像所对应的甲骨字标注为锚点甲骨字在甲骨字原文中所对应的下一个和/或上一个甲骨字,完成该甲骨字符图像的字符级别的标注。
2.根据权利要求1所述的基于空间近邻关系的甲骨文自动标注方法,其特征在于:所述的步骤A中,定位结果为包含对应甲骨字符的矩形框,矩形框的坐标包含矩形框左上顶点的坐标(x1,y1)和右下顶点的坐标(x2,y2);定义甲骨文拓片图像上的每一个甲骨文字为一个甲骨字符,甲骨文拓片图像上每个矩形框构成的图像称为甲骨字符图像,甲骨字符图像的坐标表示为(x1,y1,x2,y2)。
3.根据权利要求2所述的基于空间近邻关系的甲骨文自动标注方法,其特征在于:所述的步骤F中,采用先分列后切割的搜索方法,在甲骨文拓片图像上寻找位于锚点甲骨字符图像之后的下一个甲骨字符图像及其坐标;
先分列后切割的搜索方法包含以下具体步骤:
F11:对步骤A中定位得到的所有的甲骨字符图像,按照甲骨字符图像的左上角顶点的纵坐标的值y1进行从小到大的排序,然后建立原始甲骨字符图像集合和待定甲骨字符图像集合,原始甲骨字符图像集合和待定甲骨字符图像集合均初始化为排序后的所有甲骨字符图像组成的集合;
F12:对原始甲骨字符图像集合中的甲骨字符图像进行分列处理,按照排序后两个甲骨字符图像在水平方向上投影的重合度判断两个甲骨字符图像是否位于同一列,直至排序后的所有甲骨字符图像均划分至对应的确定列集合中;
F13:对于经步骤F12得到的经分列后的每个确定列集合中的甲骨字符图像进行切割处理,依次对每个确定列集合中相邻的两个甲骨字符图像进行竖直间距计算,利用得到的竖直间距判断每个确定列集合中相邻的两个甲骨字符图像是否为同一确定列集合,最终得到经切割后的若干确定列集合;
F14:从步骤F13得到的经切割后的若干确定列集合中,依据其余的甲骨字符图像与锚点甲骨字符图像的位置关系,寻找锚点甲骨字符图像的下一个甲骨字符图像的可能结果。
4.根据权利要求3所述的基于空间近邻关系的甲骨文自动标注方法,其特征在于:所述的步骤F12中分列处理包含以下具体步骤:
F121:新建确定列集合并初始化确定列集合为空,选取原始甲骨字符图像集合中的第一个甲骨字符图像,将其定义为该确定列集合的第一个甲骨字符图像,然后将该甲骨字符图像从待定甲骨字符图像集合中移除,进入步骤F122;
F122:以原始甲骨字符图像集合中的第一个甲骨字符图像在x轴上投影得到的两个横坐标值x1,x2为基准,与原始甲骨字符图像集合中的第二个甲骨字符图像在x轴上投影后的两个横坐标值进行投影重合度计算,通过比较投影重合度与所设定的第一投影重合度阈值的大小关系,判断第二个甲骨字符图像是否与第一个甲骨字符图像位于同一个确定列集合;若第一个和第二个甲骨字符图像的投影重合度大于等于第一投影重合度阈值,进入步骤F123;若第一个和第二个甲骨字符图像的投影重合度小于第一投影重合度阈值,进入步骤F126;
F123:若原始甲骨字符图像集合中的第一个和原始甲骨字符图像集合中的第二个甲骨字符图像的投影重合度大于等于第一投影重合度阈值,则判定第二个甲骨字符图像与第一个甲骨字符图像位于同一个确定列集合,然后将原始甲骨字符图像集合中的第二个甲骨字符图像放入确定列集合,并将第二个甲骨字符图像从待定甲骨字符图像集合移除;然后以原始甲骨字符图像集合中的第二个甲骨字符图像在x轴上投影后的两个横坐标值为基准,与原始甲骨字符图像集合中的第三个甲骨字符图像在x轴上投影后的两个横坐标值进行投影重合度计算,比较投影重合度与所设定的第一投影重合度阈值的大小关系;若原始甲骨字符图像集合中的第二个和第三个甲骨字符图像的投影重合度大于等于第一投影重合度阈值,进入步骤F124;若原始甲骨字符图像集合中的第二个和第三个甲骨字符图像的投影重合度小于第一投影重合度阈值,进入步骤F125;
F124:若原始甲骨字符图像集合中的第二个和第三个甲骨字符图像的投影重合度大于等于第一投影重合度阈值,则判定原始甲骨字符图像集合中的第三个甲骨字符图像与原始甲骨字符图像集合中的第一个甲骨字符图像位于同一确定列集合,然后将原始甲骨字符图像集合中的第三个甲骨字符图像放入确定列集合,并将第三个甲骨字符图像从待定甲骨字符图像集合移除;然后以原始甲骨字符图像集合中的第三个甲骨字符图像在x轴上投影后的两个横坐标值为基准,与原始甲骨字符图像集合中的第四个甲骨字符图像在x轴上投影后的两个横坐标值进行投影重合度计算,判断第四个甲骨字符图像是否与第一个甲骨字符图像位于同一确定列集合;然后照此方法继续判断;
F125:若原始甲骨字符图像集合中的第二个和第三个甲骨字符图像的投影重合度小于第一投影重合度阈值,则判定原始甲骨字符图像集合中的第三个甲骨字符图像不与第一个甲骨字符图像位于同一确定列集合;然后继续以原始甲骨字符图像集合中的第二个甲骨字符图像在x轴上投影后的两个横坐标值为基准,与原始甲骨字符图像集合中的第四个甲骨字符图像在x轴上投影后的两个横坐标值进行投影重合度计算,比较投影重合度与所设定的第一投影重合度阈值的大小关系,判断第四个甲骨字符图像是否与第一个甲骨字符图像位于同一确定列集合;然后照此方法继续判断;
F126:若原始甲骨字符图像集合中的第一个和原始甲骨字符图像集合中的第二个甲骨字符图像的投影重合度小于第一投影重合度阈值,则判定第二个甲骨字符图像不与第一个甲骨字符图像位于同一确定列集合;然后继续以原始甲骨字符图像集合中的第一个甲骨字符图像在x轴上投影后的两个横坐标值为基准,与原始甲骨字符图像集合中的第三个甲骨字符图像在x轴上的坐标进行投影重合度计算,比较投影重合度与所设定的第一投影重合度阈值的大小关系,判断第三个甲骨字符图像是否与第一个甲骨字符图像位于同一确定列集合;若原始甲骨字符图像集合中的第一个和原始甲骨字符图像集合中的第三个甲骨字符图像的投影重合度大于等于第一投影重合度阈值,进入步骤F127;若原始甲骨字符图像集合中的第一个和原始甲骨字符图像集合中的第三个甲骨字符图像的投影重合度小于第一投影重合度阈值,进入步骤F128;
F127:若原始甲骨字符图像集合中的第一个和原始甲骨字符图像集合中的第三个甲骨字符图像的投影重合度大于等于第一投影重合度阈值,则判定原始甲骨字符图像集合中的第三个甲骨字符图像与第一个甲骨字符图像位于同一确定列集合,然后将原始甲骨字符图像集合中的第三个甲骨字符图像放入确定列集合,并将第三个甲骨字符图像从待定甲骨字符图像集合移除;然后以原始甲骨字符图像集合中的第三个甲骨字符图像在x轴上投影后的两个横坐标值为基准,与原始甲骨字符图像集合中的第四个甲骨字符图像在x轴上投影后的两个横坐标值进行投影重合度计算,判断第四个甲骨字符图像是否与第一个甲骨字符图像位于同一确定列集合;然后照此方法继续判断;
F128:若原始甲骨字符图像集合中的第一个和原始甲骨字符图像集合中的第三个甲骨字符图像的投影重合度小于第一投影重合度阈值,则判定原始甲骨字符图像集合中的第三个甲骨字符图像不与第一个甲骨字符图像位于同一确定列集合;然后继续以原始甲骨字符图像集合中的第一个甲骨字符图像在x轴上投影后的两个横坐标值为基准,与原始甲骨字符图像集合中的第四个甲骨字符图像在x轴上投影后的两个横坐标值进行投影重合度计算,根据投影重合度与所设定的第一投影重合度阈值的大小关系,判断原始甲骨字符图像集合中的第四个甲骨字符图像是否与第一个甲骨字符图像位于同一确定列集合;然后照此方法继续判断;
F129:当原始甲骨字符图像集合中的最后一个甲骨字符图像完成判定后,输出确定列集合,清空原始甲骨字符图像集合,然后将待定甲骨字符图像集合赋值给原始甲骨字符图像集合,然对原始甲骨字符图像集合中所有的甲骨字符图像按照步骤F121至步骤F129的方法继续判断,直至排序后的所有的甲骨字符图像均划分至对应的确定列集合。
5.根据权利要求3所述的基于空间近邻关系的甲骨文自动标注方法,其特征在于,所述的步骤F13包括以下具体步骤:
F131:计算切割阈值,对于步骤F12分列后得到的每个确定列集合,分别计算该集合中所有相邻的两个甲骨字符图像的竖直间距,将该竖直间距的值插入到竖直间距集合中,当所有的确定列集合计算完毕后,对竖直间距集合中的元素进行从小到大排序,然后求竖直间距集合的中位数,作为切割阈值;
F132:对于经步骤F12分列后得到的每个确定列集合进行切割处理,依次对当前的确定列集合中两个相邻的甲骨字符图像进行竖直间距计算,并将得到的竖直间距与切割阈值进行比较,若竖直间距大于等于切割阈值,则从这两个甲骨字符图像的中间位置进行切割,将当前的确定列集合切割为两个确定列集合;若两个相邻的甲骨字符图像的竖直间距小于切割阈值,则不进行切割处理;对所有的确定列集合递归地执行上述切割操作,直到没有新的确定列集合产生;最终得到经切割操作后的若干确定列集合。
6.根据权利要求3所述的基于空间近邻关系的甲骨文自动标注方法,其特征在于,所述的步骤F14中寻找锚点甲骨字符图像的下一个甲骨字符图像的可能结果,包括如下具体步骤:
F141:在步骤F13所得到的经切割后的若干确定列集合中,确定锚点甲骨字符图像的所在的确定列集合;然后进入步骤F142;
F142:判断锚点甲骨字符图像的所在的确定列集合中,锚点甲骨字符图像是否存在下一个甲骨字符图像;若存在,则选取位于锚点甲骨字符图像的下一个甲骨字符图像,然后进入步骤F143;若不存在,则直接进入步骤F143;
F143:在经切割后的若干确定列集合中,除去锚点甲骨字符图像所在的确定列集合后,选取其他每个确定列集合中的第一个甲骨字符图像,然后从得到的所有的第一个甲骨字符图像中剔除满足以下任意一个条件的甲骨字符图像;
条件1:位于确定列集合中的第一个甲骨字符图像在锚点甲骨字符图像的上方,且该第一个甲骨字符图像与锚点甲骨字符图像在x轴上的投影重合度大于等于所设定的第一投影重合度阈值;
条件2:位于确定列集合中的第一个甲骨字符图像在锚点甲骨字符图像的下方,且该第一个甲骨字符图像与锚点甲骨字符图像的竖直间距大于等于所设定的切割阈值的M倍;
将完成剔除步骤后所剩余的其他所有确定列集合中的第一个甲骨字符图像,分别与锚点甲骨字符图像进行水平间距的计算,并根据得到的水平间距从小到大排序;
若步骤F142中存在与锚点甲骨字符图像同确定列集合的下一个甲骨字符图像,则将该下一个甲骨字符图像排为输出的下一个甲骨字符图像的第1个可能结果,然后将根据水平间距排序得到的前P-1个甲骨字符图像的可能结果,作为下一个甲骨字符图像的第二个至第P个可能结果;然后同时输出上述P个可能结果所对应的甲骨字符图像的坐标;
若步骤F142中不存在与锚点甲骨字符图像同确定列集合的下一个甲骨字符图像,根据水平间距排序得到的前P个甲骨字符图像的可能结果,作为下一个甲骨字符图像的第1个至第P个可能结果;然后同时输出上述P个可能结果所对应的甲骨字符图像的坐标;
其中,计算两个甲骨字符图像的水平间距时,分别求每个甲骨字符图像投影到x轴上得到的两个横坐标值的中点,然后计算得到两个甲骨字符图像对应的中点之间的距离,作为两个甲骨字符图像的水平间距; 设甲骨字符图像a与甲骨字符图像b之间的坐标分别为(xa1,ya1,xa2,ya2)和(xb1,xb2,yb1,yb2),则甲骨字符图像a与甲骨字符图像b之间的水平间距为
Figure FDA0002377570010000061
7.根据权利要求1所述的基于空间近邻关系的甲骨文自动标注方法,其特征在于,所述的步骤G中,采用先分列后切割的搜索方法,在甲骨文拓片图像上寻找锚点甲骨字符图像的上一个甲骨字符图像及其坐标:
先分列后切割的搜索方法包含以下具体步骤:
G11:对步骤A中定位得到的所有的甲骨字符图像,按照甲骨字符图像的左上角顶点的纵坐标的值y1进行从小到大的排序,然后建立原始甲骨字符图像集合和待定甲骨字符图像集合,原始甲骨字符图像集合和待定甲骨字符图像集合均初始化为排序后的所有甲骨字符图像组成的集合;
G12:对原始甲骨字符图像集合中的甲骨字符图像进行分列处理,按照排序后两个甲骨字符图像在水平方向上投影的重合度判断两个甲骨字符图像是否位于同一确定列集合,直至排序后的所有甲骨字符图像均划分至对应的确定列集合中;
G13:对于经步骤G12得到的经分列后的每个确定列集合中的甲骨字符图像进行切割处理,依次对每个确定列集合中相邻的两个甲骨字符图像进行竖直间距计算,利用得到的竖直间距判断每个确定列集合中相邻的两个甲骨字符图像是否为同一确定列集合,最终得到经切割后的若干确定列集合;
G14:从步骤G13得到的经切割后的若干确定列集合中,依据待定甲骨字符图像与锚点甲骨字符图像的位置关系,寻找锚点甲骨字符图像的上一个甲骨字符图像的可能结果。
8.根据权利要求7所述的基于空间近邻关系的甲骨文自动标注方法,其特征在于,所述的步骤G14中分列处理包含以下具体步骤:
G141:在步骤G13所得到的经切割后的若干确定列集合中,确定锚点甲骨字符图像的所在的确定列集合;然后进入步骤G142;
G142:判断锚点甲骨字符图像的所在的确定列集合中,锚点甲骨字符图像是否存在上一个甲骨字符图像;若存在,则选取位于锚点甲骨字符图像的上一个甲骨字符图像,然后进入步骤G143;若不存在,则直接进入步骤G143;
G143:在经切割后的若干确定列集合中,除去锚点甲骨字符图像所在的确定列集合后,选取其他每个确定列集合中最后一个甲骨字符图像,然后从得到的所有的最后一个甲骨字符图像中剔除满足以下任意一个条件的甲骨字符图像,
条件1:位于确定列集合的最后一个甲骨字符图像在锚点甲骨字符图像的下方,且该最后一个甲骨字符图像与锚点甲骨字符图像在x轴上的投影重合度大于等于所设定的第一投影重合度阈值;
条件2:位于确定列集合的最后一个甲骨字符图像在锚点甲骨字符图像的上方,且该最后一个甲骨字符图像与锚点甲骨字符图像的竖直间距大于等于所设定的切割阈值的M倍;
将完成剔除步骤后所剩余的其他所有确定列集合中的最后一个甲骨字符图像,分别与锚点甲骨字符图像进行水平间距的绝对值计算,并根据得到的水平间距的绝对值从小到大排序;
若步骤G142中存在与锚点甲骨字符图像同确定列集合的上一个甲骨字符图像,则将该上一个甲骨字符图像排为输出的上一个甲骨字符图像的第1个可能结果,然后将根据水平间距排序得到的前P-1个甲骨字符图像的可能结果,作为上一个甲骨字符图像的第二个至第P个可能结果;然后同时输出上述P个可能结果所对应的甲骨字符图像的坐标;
若步骤G142中不存在与锚点甲骨字符图像同确定列集合的上一个甲骨字符图像,根据水平间距排序得到的前P个甲骨字符图像的可能结果,作为上一个甲骨字符图像的第1个至第P个可能结果;然后同时输出上述P个可能结果所对应的甲骨字符图像的坐标;
其中,计算两个甲骨字符图像的水平间距时,分别求每个甲骨字符图像投影到x轴上得到的两个横坐标值的中点,然后计算得到两个甲骨字符图像对应的中点之间的距离,作为两个甲骨字符图像的水平间距; 设甲骨字符图像a与甲骨字符图像b之间的坐标分别为(xa1,ya1,xa2,ya2)和(xb1,yb1xb2,yb2),则甲骨字符图像a与甲骨字符图像b之间的水平间距为
Figure FDA0002377570010000081
9.根据权利要求1所述的基于空间近邻关系的甲骨文自动标注方法,其特征在于:所述的步骤B中的K取值为5;步骤C中的Q取值为50。
10.根据权利要求8所述的基于空间近邻关系的甲骨文自动标注方法,其特征在于:所述的第一投影重合度阈值为0.5。
CN202010072173.XA 2020-01-21 2020-01-21 一种基于空间近邻关系的甲骨文自动标注方法 Active CN111291750B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010072173.XA CN111291750B (zh) 2020-01-21 2020-01-21 一种基于空间近邻关系的甲骨文自动标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010072173.XA CN111291750B (zh) 2020-01-21 2020-01-21 一种基于空间近邻关系的甲骨文自动标注方法

Publications (2)

Publication Number Publication Date
CN111291750A CN111291750A (zh) 2020-06-16
CN111291750B true CN111291750B (zh) 2023-03-24

Family

ID=71028466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010072173.XA Active CN111291750B (zh) 2020-01-21 2020-01-21 一种基于空间近邻关系的甲骨文自动标注方法

Country Status (1)

Country Link
CN (1) CN111291750B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111915540B (zh) * 2020-06-17 2023-08-18 华南理工大学 拓片甲骨文字符图像增广方法、系统、计算机设备及介质
CN113362361B (zh) * 2021-07-20 2023-09-05 辽宁师范大学 形态学先验约束的甲骨文字检测的图像数据集构建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08194773A (ja) * 1995-01-13 1996-07-30 Seiko Epson Corp 画像処理方法および画像処理装置
EP3163502A1 (en) * 2015-10-30 2017-05-03 Xiaomi Inc. Method and device for region identification
CN107085726A (zh) * 2017-01-04 2017-08-22 安阳师范学院 基于多方法去噪和连通区域分析的甲骨拓片单字定位方法
CN108509587A (zh) * 2018-03-29 2018-09-07 浙江师范大学 查询甲骨文拓图及其原文与释文的数据库建设及检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08194773A (ja) * 1995-01-13 1996-07-30 Seiko Epson Corp 画像処理方法および画像処理装置
EP3163502A1 (en) * 2015-10-30 2017-05-03 Xiaomi Inc. Method and device for region identification
CN107085726A (zh) * 2017-01-04 2017-08-22 安阳师范学院 基于多方法去噪和连通区域分析的甲骨拓片单字定位方法
CN108509587A (zh) * 2018-03-29 2018-09-07 浙江师范大学 查询甲骨文拓图及其原文与释文的数据库建设及检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于SVM的甲骨文字识别;刘永革等;《安阳师范学院学报》;20170415(第02期);全文 *
基于数学形态学的甲骨拓片字形特征提取方法;酆格斐等;《中文信息学报》;20130315(第02期);全文 *
基于阈值分割和形态学的甲骨拓片文字定位方法;史小松等;《北京信息科技大学学报(自然科学版)》;20141215(第06期);全文 *

Also Published As

Publication number Publication date
CN111291750A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN107346420B (zh) 一种基于深度学习的自然场景下文字检测定位方法
CN108985334B (zh) 基于自监督过程改进主动学习的通用物体检测系统及方法
CN105184292B (zh) 自然场景图像中手写体数学公式结构分析与识别方法
JP5837205B2 (ja) 画像領域を使用するテキスト検出
Li et al. Rhythmic brushstrokes distinguish van Gogh from his contemporaries: findings via automated brushstroke extraction
EP3001352B1 (en) Image processing apparatus and image processing method
CN111291750B (zh) 一种基于空间近邻关系的甲骨文自动标注方法
CN106650739B (zh) 一种车牌字符切割新方法
CN111860348A (zh) 基于深度学习的弱监督电力图纸ocr识别方法
US10643094B2 (en) Method for line and word segmentation for handwritten text images
CN101299236B (zh) 一种中文手写词组识别方法
JPH06309498A (ja) 画像抽出方式
CN102129560B (zh) 字符识别的方法和设备
CN110717492B (zh) 基于联合特征的图纸中字符串方向校正方法
CN109635808B (zh) 一种在自然场景图像中对中文关键词及上下文的提取方法
CN105913057B (zh) 一种结合投影和结构特征进行图像中数学公式检测方法
CN112016605A (zh) 一种基于边界框角点对齐和边界匹配的目标检测方法
CN111192346B (zh) 电子菜单生成方法、装置和设备
CN101964048A (zh) 一种字符识别方法及系统
CN104992454A (zh) 一种区域化自动变类的图像分割方法
CN112287977A (zh) 一种基于边界框关键点距离的目标检测方法
CN106709489B (zh) 一种字符识别的处理方法和装置
CN110263631B (zh) 一种手写化学公式识别与配平方法
CN109284702B (zh) 一种基于图像模式的答题卷给分及阅卷系统
CN105447477A (zh) 基于公式库的公式识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant