CN111291750B

CN111291750B - 一种基于空间近邻关系的甲骨文自动标注方法

Info

Publication number: CN111291750B
Application number: CN202010072173.XA
Authority: CN
Inventors: 张重生; 曹爽; 史先进; 凡高娟; 门艺; 夏瑞雪; 沈夏炯; 莫伯峰; 余波; 郑逢斌
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2023-03-24
Anticipated expiration: 2040-01-21
Also published as: CN111291750A

Abstract

本发明公开了一种基于空间近邻关系的甲骨文自动标注方法，包括以下步骤：A：对甲骨字符进行定位；B：对甲骨字符图像进行识别；C：选取待定锚点甲骨字；D：选取锚点甲骨字符图像；E：判断锚点甲骨字在甲骨字原文中的位置，进入下一个甲骨字符图像和/或上一个甲骨字符图像搜索；F：进行下一个甲骨字符图像搜索；G：进行上一个甲骨字符图像搜索；H：进行下一个和上一个甲骨字符图像搜索；I：完成甲骨字符图像的字符级别的标注。本发明能够快速高效地实现甲骨文拓片图像的字符级别的标注，即在甲骨文拓片图像上自动定位出甲骨文字位置，并对应显示出相应的甲骨字。

Description

一种基于空间近邻关系的甲骨文自动标注方法

技术领域

本发明涉及一种甲骨文自动标注方法，尤其涉及一种基于空间近邻关系的甲骨文自动标注方法。

背景技术

甲骨文是迄今为止我国发现的年代最早的成熟文字系统，是汉字的源头和中华优秀传统文化的根脉。甲骨文的研究，始终受到国家与社会各方的高度重视。由于甲骨文字存在年代久远、甲骨残缺和甲骨图像不清晰等原因，目前可识字仅有3000余个，仍存在大量的不可识字。同时，不少甲骨文字在古文字领域内仍存在歧义现象，对甲骨文识别带来巨大的挑战。

随着图像检测和图像识别算法的广泛应用，基于图像检测和图像识别算法的甲骨文字研究也得到了快速发展。在涌现的大量图像检测和图像识别算法中，较为常见的是基于文本行或者文本序列的识别。现有识别方式大多通过构建按文本行标注的数据集，进而对图像进行检测和识别，来验证其算法的准确性。然而在甲骨文图像数据集内，由于每一句的甲骨文相对分散，基于文本行的图像识别存在很大的困难。同时，甲骨图像本身还存在大量纹路，进一步加剧了图像识别的困难。

基于上述情况，如何高效的进行基于字符级的甲骨文图像识别，其关键问题在于如何实现基于字符的数据标注。现有的甲骨标注中，仅仅对每个甲骨文拓片图像提供了篇幅级别的标注，即该甲骨文拓片图像中有哪几句话，每句话中有哪些文字，但没有提供每幅图像中、每句话以及每句话中的每个甲骨字在甲骨文拓片图像中的具体坐标位置(矩形框)，而无法实现字符级别的甲骨图像标注。而要实现字符级别的甲骨图像标注，在现有技术环境下，只能通过在甲骨文拓片上进行大量的人工标注，且需要大量古文字领域专业人士的参与，同时还需耗费大量的人力、物力、财力和时间成本。

发明内容

本发明的目的是提供一种基于空间近邻关系的甲骨文自动标注方法，能够结合现有甲骨文拓片图像及该甲骨文拓片图像的篇幅级别的标注，快速高效地实现甲骨文拓片图像的字符级别的标注，即在甲骨文拓片图像上自动定位出甲骨文字位置，并对应显示出相应的甲骨字。

本发明采用下述技术方案：

一种基于空间近邻关系的甲骨文自动标注方法，包括以下步骤：

A：使用文字定位算法，对甲骨文拓片图像上的每一个甲骨字符进行定位并得到定位结果；

B：使用甲骨文识别算法，对甲骨文拓片图像上的每一个甲骨字符图像进行识别，并将每一个甲骨字符图像的识别结果按照可能性从大到小排序，输出每一个甲骨字符图像的前K个识别结果；

C：根据给定的甲骨字原文，将甲骨字原文中所有的甲骨字逐一在现有甲骨文数据库中进行检索，选取出现频率不小于Q次的甲骨字作为待定锚点甲骨字；

D：将步骤C中得到的所有的待定锚点甲骨字，与步骤B中得到的每一个甲骨字符图像的前K个识别结果进行对比，选取出待定锚点甲骨字和识别结果中共有的甲骨字作为锚点甲骨字，锚点甲骨字所对应的甲骨字符图像作为锚点甲骨字符图像；

E：判断步骤D中得到的锚点甲骨字在甲骨字原文中的位置，若锚点甲骨字在甲骨字原文中为第一个甲骨字，则进入步骤F；若锚点甲骨字在甲骨字原文中为最后一个甲骨字，则进入步骤G；锚点甲骨字在甲骨字原文中为中间的甲骨字，则进入步骤H；

F：以确定的锚点甲骨字符图像的坐标为出发点，在甲骨文拓片图像上寻找锚点甲骨字符图像的下一个甲骨字符图像，并确定下一个甲骨字符图像的坐标，然后按照可能性从大到小排序，输出前P个甲骨字符图像的坐标；然后进入步骤I；

G：以确定的锚点甲骨字符图像的坐标为出发点，在甲骨文拓片图像上寻找锚点甲骨字符图像的上一个甲骨字符图像，并确定上一个甲骨字符图像的坐标，然后按照可能性从大到小排序，输出前P个甲骨字符图像的坐标；然后进入步骤I；

H：以确定的锚点甲骨字符图像的坐标为出发点，分别使用步骤F和步骤G中的方法，在甲骨文拓片图像上先后寻找锚点甲骨字符图像的下一个和上一个甲骨字符图像，并确定下一个和上一个甲骨字符图像的坐标，然后按照可能性从大到小排序，分别输出下一个甲骨字符图像的前P个可能结果和上一个甲骨字符图像的前P个可能结果及所对应的甲骨字符图像的坐标；然后进入步骤I；

I：根据得到的下一个甲骨字符图像的P个可能结果和/或上一个甲骨字符图像的前P个可能结果所对应的甲骨字符图像及甲骨字符图像坐标，对P个可能结果中的每一个甲骨字符图像，首先按照步骤B中的方法分别输出该甲骨字符图像的前K个识别结果，然后判断这K个识别结果中是否包含了锚点甲骨字在甲骨字原文中所对应的下一个和/或上一个甲骨字，若包含，则将该甲骨字符图像所对应的甲骨字标注为锚点甲骨字在甲骨字原文中所对应的下一个和/或上一个甲骨字，完成该甲骨字符图像的字符级别的标注。

所述的步骤A中，定位结果为包含对应甲骨字符的矩形框，矩形框的坐标包含矩形框左上顶点的坐标(x₁,y₁)和右下顶点的坐标(x₂,y₂)；定义甲骨文拓片图像上的每一个甲骨文字为一个甲骨字符，甲骨文拓片图像上每个矩形框构成的图像称为甲骨字符图像，甲骨字符图像的坐标表示为(x₁,y₁,x₂,y₂)。

所述的步骤F中，采用先分列后切割的搜索方法，在甲骨文拓片图像上寻找位于锚点甲骨字符图像之后的下一个甲骨字符图像及其坐标；

先分列后切割的搜索方法包含以下具体步骤：

F11：对步骤A中定位得到的所有的甲骨字符图像，按照甲骨字符图像的左上角顶点的纵坐标的值y₁进行从小到大的排序，然后建立原始甲骨字符图像集合和待定甲骨字符图像集合，原始甲骨字符图像集合和待定甲骨字符图像集合均初始化为排序后的所有甲骨字符图像组成的集合；

F12：对原始甲骨字符图像集合中的甲骨字符图像进行分列处理，按照排序后两个甲骨字符图像在水平方向上投影的重合度判断两个甲骨字符图像是否位于同一列，直至排序后的所有甲骨字符图像均划分至对应的确定列集合中；

F13：对于经步骤F12得到的经分列后的每个确定列集合中的甲骨字符图像进行切割处理，依次对每个确定列集合中相邻的两个甲骨字符图像进行竖直间距计算，利用得到的竖直间距判断每个确定列集合中相邻的两个甲骨字符图像是否为同一确定列集合，最终得到经切割后的若干确定列集合；

F14：从步骤F13得到的经切割后的若干确定列集合中，依据其余的甲骨字符图像与锚点甲骨字符图像的位置关系，寻找锚点甲骨字符图像的下一个甲骨字符图像的可能结果。

所述的步骤F12中分列处理包含以下具体步骤：

F121：新建确定列集合并初始化确定列集合为空，选取原始甲骨字符图像集合中的第一个甲骨字符图像，将其定义为该确定列集合的第一个甲骨字符图像，然后将该甲骨字符图像从待定甲骨字符图像集合中移除，进入步骤F122；

F122：以原始甲骨字符图像集合中的第一个甲骨字符图像在x轴上投影得到的两个横坐标值x₁，x₂为基准，与原始甲骨字符图像集合中的第二个甲骨字符图像在x轴上投影后的两个横坐标值进行投影重合度计算，通过比较投影重合度与所设定的第一投影重合度阈值的大小关系，判断第二个甲骨字符图像是否与第一个甲骨字符图像位于同一个确定列集合；若第一个和第二个甲骨字符图像的投影重合度大于等于第一投影重合度阈值，进入步骤F123；若第一个和第二个甲骨字符图像的投影重合度小于第一投影重合度阈值，进入步骤F126；

F123：若原始甲骨字符图像集合中的第一个和原始甲骨字符图像集合中的第二个甲骨字符图像的投影重合度大于等于第一投影重合度阈值，则判定第二个甲骨字符图像与第一个甲骨字符图像位于同一个确定列集合，然后将原始甲骨字符图像集合中的第二个甲骨字符图像放入确定列集合，并将第二个甲骨字符图像从待定甲骨字符图像集合移除；然后以原始甲骨字符图像集合中的第二个甲骨字符图像在x轴上投影后的两个横坐标值为基准，与原始甲骨字符图像集合中的第三个甲骨字符图像在x轴上投影后的两个横坐标值进行投影重合度计算，比较投影重合度与所设定的第一投影重合度阈值的大小关系；若原始甲骨字符图像集合中的第二个和第三个甲骨字符图像的投影重合度大于等于第一投影重合度阈值，进入步骤F124；若原始甲骨字符图像集合中的第二个和第三个甲骨字符图像的投影重合度小于第一投影重合度阈值，进入步骤F125；

F124：若原始甲骨字符图像集合中的第二个和第三个甲骨字符图像的投影重合度大于等于第一投影重合度阈值，则判定原始甲骨字符图像集合中的第三个甲骨字符图像与原始甲骨字符图像集合中的第一个甲骨字符图像位于同一确定列集合，然后将原始甲骨字符图像集合中的第三个甲骨字符图像放入确定列集合，并将第三个甲骨字符图像从待定甲骨字符图像集合移除；然后以原始甲骨字符图像集合中的第三个甲骨字符图像在x轴上投影后的两个横坐标值为基准，与原始甲骨字符图像集合中的第四个甲骨字符图像在x轴上投影后的两个横坐标值进行投影重合度计算，判断第四个甲骨字符图像是否与第一个甲骨字符图像位于同一确定列集合；然后照此方法继续判断；

F125：若原始甲骨字符图像集合中的第二个和第三个甲骨字符图像的投影重合度小于第一投影重合度阈值，则判定原始甲骨字符图像集合中的第三个甲骨字符图像不与第一个甲骨字符图像位于同一确定列集合；然后继续以原始甲骨字符图像集合中的第二个甲骨字符图像在x轴上投影后的两个横坐标值为基准，与原始甲骨字符图像集合中的第四个甲骨字符图像在x轴上投影后的两个横坐标值进行投影重合度计算，比较投影重合度与所设定的第一投影重合度阈值的大小关系，判断第四个甲骨字符图像是否与第一个甲骨字符图像位于同一确定列集合；然后照此方法继续判断；

F126：若原始甲骨字符图像集合中的第一个和原始甲骨字符图像集合中的第二个甲骨字符图像的投影重合度小于第一投影重合度阈值，则判定第二个甲骨字符图像不与第一个甲骨字符图像位于同一确定列集合；然后继续以原始甲骨字符图像集合中的第一个甲骨字符图像在x轴上投影后的两个横坐标值为基准，与原始甲骨字符图像集合中的第三个甲骨字符图像在x轴上的坐标进行投影重合度计算，比较投影重合度与所设定的第一投影重合度阈值的大小关系，判断第三个甲骨字符图像是否与第一个甲骨字符图像位于同一确定列集合；若原始甲骨字符图像集合中的第一个和原始甲骨字符图像集合中的第三个甲骨字符图像的投影重合度大于等于第一投影重合度阈值，进入步骤F127；若原始甲骨字符图像集合中的第一个和原始甲骨字符图像集合中的第三个甲骨字符图像的投影重合度小于第一投影重合度阈值，进入步骤F128；

F127：若原始甲骨字符图像集合中的第一个和原始甲骨字符图像集合中的第三个甲骨字符图像的投影重合度大于等于第一投影重合度阈值，则判定原始甲骨字符图像集合中的第三个甲骨字符图像与第一个甲骨字符图像位于同一确定列集合，然后将原始甲骨字符图像集合中的第三个甲骨字符图像放入确定列集合，并将第三个甲骨字符图像从待定甲骨字符图像集合移除；然后以原始甲骨字符图像集合中的第三个甲骨字符图像在x轴上投影后的两个横坐标值为基准，与原始甲骨字符图像集合中的第四个甲骨字符图像在x轴上投影后的两个横坐标值进行投影重合度计算，判断第四个甲骨字符图像是否与第一个甲骨字符图像位于同一确定列集合；然后照此方法继续判断；

F128：若原始甲骨字符图像集合中的第一个和原始甲骨字符图像集合中的第三个甲骨字符图像的投影重合度小于第一投影重合度阈值，则判定原始甲骨字符图像集合中的第三个甲骨字符图像不与第一个甲骨字符图像位于同一确定列集合；然后继续以原始甲骨字符图像集合中的第一个甲骨字符图像在x轴上投影后的两个横坐标值为基准，与原始甲骨字符图像集合中的第四个甲骨字符图像在x轴上投影后的两个横坐标值进行投影重合度计算，根据投影重合度与所设定的第一投影重合度阈值的大小关系，判断原始甲骨字符图像集合中的第四个甲骨字符图像是否与第一个甲骨字符图像位于同一确定列集合；然后照此方法继续判断；

F129：当原始甲骨字符图像集合中的最后一个甲骨字符图像完成判定后，输出确定列集合，清空原始甲骨字符图像集合，然后将待定甲骨字符图像集合赋值给原始甲骨字符图像集合，然对原始甲骨字符图像集合中所有的甲骨字符图像按照步骤F121至步骤F129的方法继续判断，直至排序后的所有的甲骨字符图像均划分至对应的确定列集合。

所述的步骤F13包括以下具体步骤：

F131：计算切割阈值,对于步骤F12分列后得到的每个确定列集合，分别计算该集合中所有相邻的两个甲骨字符图像的竖直间距，将该竖直间距的值插入到竖直间距集合中，当所有的确定列集合计算完毕后，对竖直间距集合中的元素进行从小到大排序，然后求竖直间距集合的中位数，作为切割阈值；

F132：对于经步骤F12分列后得到的每个确定列集合进行切割处理，依次对当前的确定列集合中两个相邻的甲骨字符图像进行竖直间距计算，并将得到的竖直间距与切割阈值进行比较，若竖直间距大于等于切割阈值，则从这两个甲骨字符图像的中间位置进行切割，将当前的确定列集合切割为两个确定列集合；若两个相邻的甲骨字符图像的竖直间距小于切割阈值，则不进行切割处理；对所有的确定列集合递归地执行上述切割操作，直到没有新的确定列集合产生；最终得到经切割操作后的若干确定列集合。

所述的步骤F14中寻找锚点甲骨字符图像的下一个甲骨字符图像的可能结果，包括如下具体步骤：

F141：在步骤F13所得到的经切割后的若干确定列集合中，确定锚点甲骨字符图像的所在的确定列集合；然后进入步骤F142；

F142：判断锚点甲骨字符图像的所在的确定列集合中，锚点甲骨字符图像是否存在下一个甲骨字符图像；若存在，则选取位于锚点甲骨字符图像的下一个甲骨字符图像，然后进入步骤F143；若不存在，则直接进入步骤F143；

F143：在经切割后的若干确定列集合中，除去锚点甲骨字符图像所在的确定列集合后，选取其他每个确定列集合中的第一个甲骨字符图像，然后从得到的所有的第一个甲骨字符图像中剔除满足以下任意一个条件的甲骨字符图像；

条件1：位于确定列集合中的第一个甲骨字符图像在锚点甲骨字符图像的上方，且该第一个甲骨字符图像与锚点甲骨字符图像在x轴上的投影重合度大于等于所设定的第一投影重合度阈值；

条件2：位于确定列集合中的第一个甲骨字符图像在锚点甲骨字符图像的下方，且该第一个甲骨字符图像与锚点甲骨字符图像的竖直间距大于等于所设定的切割阈值的M倍；

将完成剔除步骤后所剩余的其他所有确定列集合中的第一个甲骨字符图像，分别与锚点甲骨字符图像进行水平间距的计算，并根据得到的水平间距从小到大排序；

若步骤F142中存在与锚点甲骨字符图像同确定列集合的下一个甲骨字符图像，则将该下一个甲骨字符图像排为输出的下一个甲骨字符图像的第1个可能结果，然后将根据水平间距排序得到的前P-1个甲骨字符图像的可能结果，作为下一个甲骨字符图像的第二个至第P个可能结果；然后同时输出上述P个可能结果所对应的甲骨字符图像的坐标；

若步骤F142中不存在与锚点甲骨字符图像同确定列集合的下一个甲骨字符图像，根据水平间距排序得到的前P个甲骨字符图像的可能结果，作为下一个甲骨字符图像的第1个至第P个可能结果；然后同时输出上述P个可能结果所对应的甲骨字符图像的坐标；

其中，计算两个甲骨字符图像的水平间距时，分别求每个甲骨字符图像投影到x轴上得到的两个横坐标值的中点，然后计算得到两个甲骨字符图像对应的中点之间的距离，作为两个甲骨字符图像的水平间距。设甲骨字符图像a与甲骨字符图像b之间的坐标分别为(x_a1,y_a1,x_a2,y_a2)和(x_b1,x_b2,y_b1,y_b2)，则甲骨字符图像a与甲骨字符图像b之间的水平间距为

所述的步骤G中，采用先分列后切割的搜索方法，在甲骨文拓片图像上寻找锚点甲骨字符图像的上一个甲骨字符图像及其坐标：

先分列后切割的搜索方法包含以下具体步骤：

G11：对步骤A中定位得到的所有的甲骨字符图像，按照甲骨字符图像的左上角顶点的纵坐标的值y₁进行从小到大的排序，然后建立原始甲骨字符图像集合和待定甲骨字符图像集合，原始甲骨字符图像集合和待定甲骨字符图像集合均初始化为排序后的所有甲骨字符图像组成的集合；

G12：对原始甲骨字符图像集合中的甲骨字符图像进行分列处理，按照排序后两个甲骨字符图像在水平方向上投影的重合度判断两个甲骨字符图像是否位于同一确定列集合，直至排序后的所有甲骨字符图像均划分至对应的确定列集合中；

G13：对于经步骤G12得到的经分列后的每个确定列集合中的甲骨字符图像进行切割处理，依次对每个确定列集合中相邻的两个甲骨字符图像进行竖直间距计算，利用得到的竖直间距判断每个确定列集合中相邻的两个甲骨字符图像是否为同一确定列集合，最终得到经切割后的若干确定列集合；

G14：从步骤G13得到的经切割后的若干确定列集合中，依据待定甲骨字符图像与锚点甲骨字符图像的位置关系，寻找锚点甲骨字符图像的上一个甲骨字符图像的可能结果。

所述的步骤G14中分列处理包含以下具体步骤：

G141：在步骤G13所得到的经切割后的若干确定列集合中，确定锚点甲骨字符图像的所在的确定列集合；然后进入步骤G142；

G142：判断锚点甲骨字符图像的所在的确定列集合中，锚点甲骨字符图像是否存在上一个甲骨字符图像；若存在，则选取位于锚点甲骨字符图像的上一个甲骨字符图像，然后进入步骤G143；若不存在，则直接进入步骤G143；

G143：在经切割后的若干确定列集合中，除去锚点甲骨字符图像所在的确定列集合后，选取其他每个确定列集合中最后一个甲骨字符图像，然后从得到的所有的最后一个甲骨字符图像中剔除满足以下任意一个条件的甲骨字符图像，

条件1：位于确定列集合的最后一个甲骨字符图像在锚点甲骨字符图像的下方，且该最后一个甲骨字符图像与锚点甲骨字符图像在x轴上的投影重合度大于等于所设定的第一投影重合度阈值；

条件2：位于确定列集合的最后一个甲骨字符图像在锚点甲骨字符图像的上方，且该最后一个甲骨字符图像与锚点甲骨字符图像的竖直间距大于等于所设定的切割阈值的M倍；

将完成剔除步骤后所剩余的其他所有确定列集合中的最后一个甲骨字符图像，分别与锚点甲骨字符图像进行水平间距的绝对值计算，并根据得到的水平间距的绝对值从小到大排序；

若步骤G142中存在与锚点甲骨字符图像同确定列集合的上一个甲骨字符图像，则将该上一个甲骨字符图像排为输出的上一个甲骨字符图像的第1个可能结果，然后将根据水平间距排序得到的前P-1个甲骨字符图像的可能结果，作为上一个甲骨字符图像的第二个至第P个可能结果；然后同时输出上述P个可能结果所对应的甲骨字符图像的坐标；

若步骤G142中不存在与锚点甲骨字符图像同确定列集合的上一个甲骨字符图像，根据水平间距排序得到的前P个甲骨字符图像的可能结果，作为上一个甲骨字符图像的第1个至第P个可能结果；然后同时输出上述P个可能结果所对应的甲骨字符图像的坐标；

其中，计算两个甲骨字符图像的水平间距时，分别求每个甲骨字符图像投影到x轴上得到的两个横坐标值的中点，然后计算得到两个甲骨字符图像对应的中点之间的距离，作为两个甲骨字符图像的水平间距。设甲骨字符图像a与甲骨字符图像b之间的坐标分别为(x_a1,y_a1,x_a2,y_a2)和(x_b1,y_b1x_b2,y_b2)，则甲骨字符图像a与甲骨字符图像b之间的水平间距为

所述的步骤B中的K取值为5；步骤C中的Q取值为50。

所述的第一投影重合度阈值为0.5。

本发明能够结合现有甲骨文拓片图像及该甲骨文拓片图像的篇幅级别的标注，通过判定锚点甲骨字在甲骨字原文中的位置，通过特殊设计的算法查找锚点甲骨字符图像的上一个和/或下一个甲骨字符图像，最终能够快速高效地实现甲骨文拓片图像的字符级别的标注，即在甲骨文拓片图像上自动定位出甲骨文字位置，并对应显示出相应的甲骨字。

附图说明

图1为本发明的流程图。

具体实施方式

以下结合附图和实施例对本发明作以详细的描述：

如图1所示，本发明所述的基于空间近邻关系的甲骨文自动标注方法，包括以下步骤：

A：使用文字定位算法，对甲骨文拓片图像上的每一个甲骨字符进行定位并得到定位结果，定位结果为包含对应甲骨字符的矩形框，矩形框的坐标包含矩形框左上顶点的坐标(x₁,y₁)和右下顶点的坐标(x₂,y₂)；定义甲骨文拓片图像上的每一个甲骨文字为一个甲骨字符，甲骨文拓片图像上每个矩形框构成的图像称为甲骨字符图像，甲骨字符图像的坐标表示为(x₁,y₁,x₂,y₂)；

其中，文字定位算法为本领域常规技术，例如East文本检测算法；

其中，甲骨文识别算法为本领域常规技术，例如ASTER文本识别算法；本实施例中，K为5；

其中，甲骨字原文为甲骨文拓片图像的篇幅级别的标注中的一部分，由多个甲骨字组成；本实施例中，Q为50次；

D：将步骤C中得到的所有的待定锚点甲骨字，与步骤B中得到的每一个甲骨字符图像的前K个识别结果进行对比，选取出待定锚点甲骨字和识别结果中共有的甲骨字作为确定锚点甲骨字，确定锚点甲骨字所对应的甲骨字符图像作为锚点甲骨字符图像；

E：判断步骤D中得到的确定锚点甲骨字在甲骨字原文中的位置，若确定锚点甲骨字在甲骨字原文中为第一个甲骨字，则进入步骤F；若确定锚点甲骨字在甲骨字原文中为最后一个甲骨字，则进入步骤G；若确定锚点甲骨字在甲骨字原文中为中间的甲骨字，则进入步骤H；

本发明中，采用先分列后切割的搜索方法，在甲骨文拓片图像上寻找位于锚点甲骨字符图像之后的下一个甲骨字符图像及其坐标：

先分列后切割的搜索方法包含以下具体步骤：

本实施例中，根据大量分析得到，甲骨文拓片图像上的甲骨字符分布具有一定的规律，绝大多数的甲骨拓片图像中，甲骨文书写顺序为从上到下、从左到右或者从右到左，极少数量的甲骨拓片图像中的书写顺序为从下到上。因此一般情况下，在甲骨文拓片图像的同一列上，坐标较小的甲骨字在甲骨字原文中优先于坐标较大的甲骨字，坐标较小的甲骨字代表其位于甲骨文拓片图像的上方。

分列处理包含以下具体步骤：

F124：若原始甲骨字符图像集合中的第二个和第三个甲骨字符图像的投影重合度大于等于第一投影重合度阈值，则判定原始甲骨字符图像集合中的第三个甲骨字符图像与原始甲骨字符图像集合中的第一个甲骨字符图像位于同一确定列集合，然后将原始甲骨字符图像集合中的第三个甲骨字符图像放入确定列集合，并将第三个甲骨字符图像从待定甲骨字符图像集合移除；然后以原始甲骨字符图像集合中的第三个甲骨字符图像在x轴上投影后的两个横坐标值为基准，与原始甲骨字符图像集合中的第四个甲骨字符图像在x轴上投影后的两个横坐标值进行投影重合度计算，判断第四个甲骨字符图像是否与第一个甲骨字符图像位于同一确定列；然后照此方法继续判断；

本实施例中，投影重合度的计算方法为常规算法，所设定的第一投影重合度阈值为0.5，为便于理解，假设排序后的原始甲骨字符图像集合中有6幅甲骨字符图像，按顺序分别为甲骨字符图像a、甲骨字符图像b、甲骨字符图像c、甲骨字符图像d、甲骨字符图像e和甲骨字符图像f；

首先判断，甲骨字符图像a与甲骨字符图像b的投影重合度大于等于第一投影重合度阈值，则甲骨字符图像a与甲骨字符图像b为同一确定列集合；

继续判断，甲骨字符图像b与甲骨字符图像c的投影重合度小于第一投影重合度阈值，则甲骨字符图像b与甲骨字符图像c不为同一确定列集合；

继续判断，甲骨字符图像b与甲骨字符图像d的投影重合度小于第一投影重合度阈值，则甲骨字符图像b与甲骨字符图像d不为同一确定列集合；

继续判断，甲骨字符图像b与甲骨字符图像e的投影重合度大于等于第一投影重合度阈值，则甲骨字符图像b与甲骨字符图像e为同一确定列集合；

继续判断，甲骨字符图像e与甲骨字符图像f的投影重合度小于第一投影重合度阈值，则甲骨字符图像e与甲骨字符图像f不为同一确定列集合；

继续判断，甲骨字符图像c与甲骨字符图像d的投影重合度小于第一投影重合度阈值，则甲骨字符图像c与甲骨字符图像d不为同一确定列集合；

继续判断，甲骨字符图像c与甲骨字符图像f的投影重合度小于第一投影重合度阈值，则甲骨字符图像c与甲骨字符图像f不为同一确定列集合；

继续判断，甲骨字符图像d与甲骨字符图像f的投影重合度大于等于第一投影重合度阈值，则甲骨字符图像d与甲骨字符图像f为同一确定列集合；

综上得到，甲骨字符图像a、甲骨字符图像b和甲骨字符图像e位于第一确定列集合，甲骨字符图像c位于第二确定列集合，甲骨字符图像d和甲骨字符图像f位于第三确定列集合；

F13：对于经步骤F12得到的经分列后的每个确定列集合中的甲骨字符图像进行切割处理，依次对每个确定列集合中相邻的两个甲骨字符图像进行竖直间距计算，判断每个确定列集合中相邻的两个甲骨字符图像是否为同一确定列集合，最终得到经切割后的若干确定列集合；

F131：计算切割阈值,对于步骤F12分列后得到的每个确定列集合，分别计算该集合中所有相邻的两个甲骨字符图像的竖直间距，将该竖直间距的值插入到竖直间距集合中。当所有的确定列集合计算完毕后，对竖直间距集合中的元素进行从小到大排序，然后求竖直间距集合的中位数，作为切割阈值。

F132：对于经步骤F12分列后得到的每个确定列集合进行切割处理，依次对当前的确定列集合中两个相邻的甲骨字符图像进行竖直间距计算，并将得到的竖直间距与切割阈值进行比较，若竖直间距大于等于切割阈值，则从这两个甲骨字符图像的中间位置进行切割，将当前的确定列集合切割为两个确定列集合；若两个相邻的甲骨字符图像的竖直间距小于切割阈值，则不进行切割处理。对所有的确定列集合递归地执行上述切割操作，直到没有新的确定列集合产生。最终得到经切割操作后的若干确定列集合。

设原始甲骨字符图像集合包括甲骨字符图像a、甲骨字符图像b、甲骨字符图像c、甲骨字符图像d、甲骨字符图像e、甲骨字符图像f和甲骨字符图像g；设甲骨字符图像a、甲骨字符图像b、甲骨字符图像c和甲骨字符图像d组成第一个确定列集合，甲骨字符图像e、甲骨字符图像f和甲骨字符图像g组成第二个确定列集合。设甲骨字符图像a与甲骨字符图像b的竖直间距为2，甲骨字符图像b与甲骨字符图像c的竖直间距为4，甲骨字符图像c与甲骨字符图像d的竖直间距为5，甲骨字符图像e与甲骨字符图像f的竖直间距为7，甲骨字符图像f与甲骨字符图像g的竖直间距为8，所有竖直间距组成竖直间距集合集合T＝{2,4,5,7,8},则最终选取竖直间距集合T的中位数5作为切割阈值；

设甲骨字符图像a位于甲骨字符图像b上方，甲骨字符图像a与甲骨字符图像b之间的竖直间距，为甲骨字符图像a右下顶点的坐标中的纵坐标与甲骨字符图像b左上顶点的坐标中的纵坐标的差值，若甲骨字符图像a右下顶点的坐标为(x_a2,y_a2),甲骨字符图像b左上顶点的坐标为(x_b1,y_b1),则甲骨字符图像a与甲骨字符图像b之间的竖直间距为(y_b1-y_a2)；

F14：从步骤F13得到的经切割后的若干确定列集合中，依据其余的甲骨字符图像与锚点甲骨字符图像的位置关系，寻找锚点甲骨字符图像的下一个甲骨字符图像的可能结果；

F141：在步骤F13所得到的经切割后的若干确定列集合中，确定锚点甲骨字符图像的所在确定列集合；然后进入步骤F142；

F142：判断锚点甲骨字符图像的所在确定列集合中，锚点甲骨字符图像是否存在下一个甲骨字符图像；若存在，则选取位于锚点甲骨字符图像的下一个甲骨字符图像，然后进入步骤F143；若不存在，则直接进入步骤F143；

F143：在经切割后的若干确定列集合中，除去锚点甲骨字符图像所在确定列集合后，选取其他每个确定列集合中的第一个甲骨字符图像，然后从得到的所有的第一个甲骨字符图像中剔除满足以下任意一个条件的甲骨字符图像；

条件1的设定，能够排除步骤F13中因切割错误将本为同一确定列集合而被误分为两个确定列集合的甲骨字符图像；

条件2的设定，能够结果中保留在给定的范围内在步骤F13中因切割错误本与锚点字符图像为同一确定列集合而被误分为两个确定列集合的甲骨字符图像，即本为同一确定列集合但因距离较远被误切割划分为其他确定列集合的甲骨字符图像；本实施例中，M为0至15；能够限制向下搜索范围。

根据经验得到，锚点甲骨字符图像的下一个甲骨字符图像，最大可能性为与该锚点甲骨字符图像同确定列集合的下一个甲骨字符图像，因此将其作为可能性最大的可能结果即第1个可能结果；但同时也应考虑若锚点甲骨字符图像位于排序后的该确定列集合的最后一个、切割步骤F13中本应切割为两个确定列集合却未切割或者在切割步骤F13中不该切割为两个确定列集合却被切割为两个确定列集合的情况，在这些情况下，锚点甲骨字符图像的下一个甲骨字符图像极可能为其他确定列集合中的第一个甲骨字幅图像，但这种情况的概率小于同确定列集合下一个的概率，因此将经水平间距从小到大排序后得到的可能结果依次作为第二个至第P个可能结果；保证所输出的可能结果能够按照其可能性大小由大到小排序输出；以提高判断的准确性。

本发明中，采用先分列后切割的搜索方法，在甲骨文拓片图像上寻找锚点甲骨字符图像的上一个甲骨字符图像及其坐标：

其中，先分列后切割的搜索方法包含以下具体步骤：

步骤G12中分列处理的步骤与步骤F12中分列处理的步骤相同，在此不再赘述；

步骤G13中切割处理的步骤与步骤F13中切割处理的步骤相同，在此不再赘述；

G14：从步骤G13得到的经切割后的若干确定列集合中，依据待定甲骨字符图像与锚点甲骨字符图像的位置关系，寻找锚点甲骨字符图像的上一个甲骨字符图像的可能结果；

条件1的设定，能够排除步骤G13中锚点甲骨字符图像下方的因切割错误将本与锚点甲骨字符图像为同一确定列集合而被误分为两个确定列集合的甲骨字符图像；

条件2的设定，能够在结果中保留步骤G13中因切割错误将本为同一确定列集合而被误分为两个确定列集合的甲骨字符图像，即本为同一确定列集合但因距离较远被误切割划分为其他确定列集合的甲骨字符图像；本实施例中，M为0至15；能够限制向上搜索范围。

将完成剔除步骤后所剩余的其他所有确定列集合中的最后一个甲骨字符图像，分别与锚点甲骨字符图像进行水平间距计算，并根据得到的水平间距从小到大排序；

根据经验得到，锚点甲骨字符图像的上一个甲骨字符图像，最大可能性为与该锚点甲骨字符图像同一确定列集合的上一个甲骨字符图像，因此将其作为可能性最大的可能结果即第1个可能结果；但同时也应考虑若锚点甲骨字符图像位于排序后的该确定列集合的第一个、切割步骤G13中本应切割为两个确定列集合却未切割或者在切割步骤G13中不该切割为两和确定列集合却被切割为两个确定列集合的情况，在这些情况下，锚点甲骨字符图像的上一个甲骨字符图像极可能为其他确定列集合中的最后一个甲骨字幅图像，但这种情况的概率小于同确定列集合上一个的概率，因此将经水平间距从小到大排序后得到的可能结果依次作为第二个至第P个可能结果；保证所输出的可能结果能够按照其可能性大小由大到小排序输出；以提高判断的准确性。

I：根据得到的下一个甲骨字符图像的P个可能结果和/或上一个甲骨字符图像的P个可能结果所对应的甲骨字符图像及甲骨字符图像坐标，对P个可能结果中的每一个甲骨字符图像，首先按照步骤B中的方法分别输出该甲骨字符图像的前K个识别结果，然后判断这K个识别结果中是否包含了锚点甲骨字在甲骨字原文中所对应的下一个和/或上一个甲骨字，若包含，则将该甲骨字符图像所对应的甲骨字标注为锚点甲骨字在甲骨字原文中所对应的下一个和/或上一个甲骨字，完成该甲骨字符图像的字符级别的标注。

步骤I中，若根据步骤F得到的下一个甲骨字符图像的P个可能结果所对应的甲骨字符图像及甲骨字符图像坐标，对P个可能结果中的每一个甲骨字符图像，首先按照步骤B中的方法分别输出该甲骨字符图像的前K个识别结果，然后判断这K个识别结果中是否包含了锚点甲骨字在甲骨字原文中所对应的下一个甲骨字，若包含，则将该甲骨字符图像所对应的甲骨字标注为锚点甲骨字在甲骨字原文中所对应的下一个甲骨字，完成该甲骨字符图像的字符级别的标注；

若根据步骤G得到的上一个甲骨字符图像的P个可能结果所对应的甲骨字符图像及甲骨字符图像坐标，对P个可能结果中的每一个甲骨字符图像，首先按照步骤B中的方法分别输出该甲骨字符图像的前K个识别结果，然后判断这K个识别结果中是否包含了锚点甲骨字在甲骨字原文中所对应的上一个甲骨字，若包含，则将该甲骨字符图像所对应的甲骨字标注为锚点甲骨字在甲骨字原文中所对应的上一个甲骨字，完成该甲骨字符图像的字符级别的标注；

若根据步骤H得到的下一个甲骨字符图像的P个可能结果和上一个甲骨字符图像的P个可能结果所对应的甲骨字符图像及甲骨字符图像坐标，，则分别对下一个甲骨字符图像和上一个甲骨字符图像的P个可能结果中的每一个甲骨字符图像，按照步骤B中的方法分别输出该甲骨字符图像的前K个识别结果，然后判断这K个识别结果中是否包含了锚点甲骨字在甲骨字原文中所对应的下一个和上一个甲骨字，若包含，则将该甲骨字符图像所对应的甲骨字标注为锚点甲骨字在甲骨字原文中所对应的下一个和上一个甲骨字，完成该甲骨字符图像的字符级别的标注。

Claims

1.一种基于空间近邻关系的甲骨文自动标注方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于空间近邻关系的甲骨文自动标注方法，其特征在于：所述的步骤A中，定位结果为包含对应甲骨字符的矩形框，矩形框的坐标包含矩形框左上顶点的坐标(x₁,y₁)和右下顶点的坐标(x₂,y₂)；定义甲骨文拓片图像上的每一个甲骨文字为一个甲骨字符，甲骨文拓片图像上每个矩形框构成的图像称为甲骨字符图像，甲骨字符图像的坐标表示为(x₁,y₁,x₂,y₂)。

3.根据权利要求2所述的基于空间近邻关系的甲骨文自动标注方法，其特征在于：所述的步骤F中，采用先分列后切割的搜索方法，在甲骨文拓片图像上寻找位于锚点甲骨字符图像之后的下一个甲骨字符图像及其坐标；

先分列后切割的搜索方法包含以下具体步骤：

4.根据权利要求3所述的基于空间近邻关系的甲骨文自动标注方法，其特征在于：所述的步骤F12中分列处理包含以下具体步骤：

5.根据权利要求3所述的基于空间近邻关系的甲骨文自动标注方法，其特征在于，所述的步骤F13包括以下具体步骤：

6.根据权利要求3所述的基于空间近邻关系的甲骨文自动标注方法，其特征在于，所述的步骤F14中寻找锚点甲骨字符图像的下一个甲骨字符图像的可能结果，包括如下具体步骤：

其中，计算两个甲骨字符图像的水平间距时，分别求每个甲骨字符图像投影到x轴上得到的两个横坐标值的中点，然后计算得到两个甲骨字符图像对应的中点之间的距离，作为两个甲骨字符图像的水平间距；设甲骨字符图像a与甲骨字符图像b之间的坐标分别为(x_a1,y_a1,x_a2,y_a2)和(x_b1,x_b2,y_b1,y_b2)，则甲骨字符图像a与甲骨字符图像b之间的水平间距为

7.根据权利要求1所述的基于空间近邻关系的甲骨文自动标注方法，其特征在于，所述的步骤G中，采用先分列后切割的搜索方法，在甲骨文拓片图像上寻找锚点甲骨字符图像的上一个甲骨字符图像及其坐标：

先分列后切割的搜索方法包含以下具体步骤：

8.根据权利要求7所述的基于空间近邻关系的甲骨文自动标注方法，其特征在于，所述的步骤G14中分列处理包含以下具体步骤：

其中，计算两个甲骨字符图像的水平间距时，分别求每个甲骨字符图像投影到x轴上得到的两个横坐标值的中点，然后计算得到两个甲骨字符图像对应的中点之间的距离，作为两个甲骨字符图像的水平间距；设甲骨字符图像a与甲骨字符图像b之间的坐标分别为(x_a1,y_a1,x_a2,y_a2)和(x_b1,y_b1x_b2,y_b2)，则甲骨字符图像a与甲骨字符图像b之间的水平间距为

9.根据权利要求1所述的基于空间近邻关系的甲骨文自动标注方法，其特征在于：所述的步骤B中的K取值为5；步骤C中的Q取值为50。

10.根据权利要求8所述的基于空间近邻关系的甲骨文自动标注方法，其特征在于：所述的第一投影重合度阈值为0.5。