CN112613512B

CN112613512B - 基于结构属性的乌金体藏文古籍字符切分方法及系统

Info

Publication number: CN112613512B
Application number: CN202011589990.9A
Authority: CN
Inventors: 王维兰; 张策; 林强; 李巧巧
Original assignee: Northwest Minzu University
Current assignee: Northwest Minzu University
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2022-08-12
Anticipated expiration: 2040-12-29
Also published as: CN112613512A

Abstract

本发明公开了一种基于结构属性的乌金体藏文古籍字符切分方法及系统，涉及民族语言信息化处理技术领域，包括对获取的乌金体藏文文本行进行粗切分处理，得到多个字符区块；确定每个字符区块的宽度；采用连通域分析算法对满足第一要求的字符区块进行字符切分；对满足第二要求的字符区块内的各笔画进行归属处理以完成字符切分；对满足第三要求的字符区块进行多字符切分；第一要求为字符区块的宽度小于第一宽度；第二要求为字符区块的宽度大于等于第一宽度且字符区块的宽度小于第二宽度；第三要求为字符区块的宽度大于等于第二宽度。本发明能够对乌金体藏文古籍字符进行精确切分。

Description

基于结构属性的乌金体藏文古籍字符切分方法及系统

技术领域

本发明涉及民族语言信息化处理技术领域，特别是涉及一种基于结构属性的乌金体藏文古籍字符切分方法及系统。

背景技术

民族语言信息化处理是铸牢中华民族共同体意识的重要体现。历史久远且存量丰富的藏文古籍文档是藏文化的重要载体，对研究藏族历史、政治、经济、文化、医药等方面有重要的参考价值。由于藏文古籍文档保存年代久远，纸张材质和墨迹已经出现不同程度的退化，甚至出现难修复的破损。因此，对珍贵的藏文古籍文档数字化保护，进而对其开发和利用，让古籍文字“活”起来，成为藏文古籍文档研究领域的一项重要任务。

藏文古籍文档研究主要集中在二值化、版面分析、文本行切分、字符切分、字符识别以及数据集建设等方面。目前，研究者们利用传统方法或深度学习方法在文档预处理、版面分析、文本行切分、字符切分、数据集建设以及字符识别等方面对藏文古籍文档进行了相关研究，但该领域的研究还处于起步阶段。其中，字符切分是藏文古籍文档研究中的难点内容，对其研究可以推动藏文古籍文档研究进展。

目前字符切分方法主要有基于投影、连通域分析、字符特征信息等切分方法。基于投影、连通域分析的方法简单，但并不适用于藏文古籍字符之间普遍存在的笔画交叠、交叉、粘连等复杂情况，字符切分正确率低；基于字符特征信息的字符切分方法主要通过字符的外轮廓、角点、端点等特征信息实现字符切分，但在字符切分实现过程中会产生很多无用的特征信息，需要利用一定的知识规则对特征信息进行筛选、组合等操作，容易导致字符过切分。

乌金体藏文古籍字符有其特有的结构属性，以上字符切分方法不能完全适用于乌金体藏文古籍字符切分。

发明内容

本发明的目的是提供一种基于结构属性的乌金体藏文古籍字符切分方法及系统，能够根据乌金体藏文古籍字符的结构属性，对基线上方字符之间存在笔画交叠、交叉、粘连以及基线下方笔画断裂等复杂情况进行精确地字符切分。

为实现上述目的，本发明提供了如下方案：

一种基于结构属性的乌金体藏文古籍字符切分方法，包括：

获取乌金体藏文文本行；

对所述乌金体藏文文本行进行粗切分处理，得到多个字符区块；

确定每个所述字符区块的宽度；

当所述字符区块满足第一要求时，采用连通域分析算法对满足所述第一要求的字符区块进行字符切分；所述第一要求为所述字符区块的宽度小于第一宽度；

当所述字符区块满足第二要求时，对满足所述第二要求的字符区块内的各笔画进行归属处理以完成字符切分；所述第二要求为所述字符区块的宽度大于等于所述第一宽度且所述字符区块的宽度小于第二宽度；

当所述字符区块满足第三要求时，对满足所述第三要求的字符区块进行多字符切分；所述第三要求为所述字符区块的宽度大于等于所述第二宽度。

可选的，所述对所述乌金体藏文文本行进行粗切分处理，得到多个字符区块，具体包括：

对所述乌金体藏文文本行进行垂直投影以形成垂直投影图；

利用所述垂直投影图中的空隙将所述乌金体藏文文本行切分成宽度不一的块状，进而得到字符区块。

可选的，所述当所述字符区块满足第三要求时，对满足所述第三要求的字符区块进行多字符切分，具体包括：

确定满足所述第三要求的字符区块的局部基线位置，并在所述局部基线位置上将满足所述第三要求的字符区块水平切分为基线上方部和基线下方部；

确定所述基线上方部内各笔画的粘连类型、粘连数量以及粘连位置；

基于满足所述第三要求的字符区块的局部基线位置、所述基线上方部内各笔画以及各所述笔画的粘连类型、粘连数量和粘连位置，采用多方向、多路径粘连切分算法，对所述基线上方内部的各粘连笔画进行切分；

基于基线上方笔画类型及其几何特征表，确定切分后笔画的笔画类型；

确定所述基线下方部内的断裂笔画；

根据所述断裂笔画以及所述切分后笔画的笔画类型，采用连通域质心和乌金体藏文结构知识对所述断裂笔画和所述切分后笔画进行归属以完成字符切分。

可选的，所述确定满足所述第三要求的字符区块的局部基线位置，并在所述局部基线位置上将满足所述第三要求的字符区块水平切分为基线上方部和基线下方部，具体包括：

当满足所述第三要求的字符区块存在音节点时，采用基于音节点位置信息的检测算法对满足所述第三要求的字符区块的局部基线进行检测以确定满足所述第三要求的字符区块的局部基线位置；

当满足所述第三要求的字符区块不存在音节点，则采用结合水平投影与直线检测的检测算法对满足所述第三要求的字符区块的局部基线进行检测以确定满足所述第三要求的字符区块的局部基线位置；

根据所述局部基线位置，对满足所述第三要求的字符区块进行水平切分，以获取基线上方部和基线下方部。

可选的，所述确定所述基线上方部内各笔画的粘连类型、粘连数量以及粘连位置，具体包括：

确定基线上方粘连类型表；所述基线上方粘连类型表包括粘连笔画和粘连类型实例；

根据所述基线上方粘连类型表确定粘连模板库；所述粘连模板库包括多种粘连模板类型；

基于所述粘连模板库和改进的误差值模板匹配算法，对所述基线上方部内的各笔画进行处理，以确定所述基线上方部内各笔画的粘连类型、粘连数量以及粘连位置；所述改进的误差值模板匹配算法包括第一部分和第二部分，所述第一部分为将笔画尺寸调整为当前粘连模板类型的尺寸，第二部分为误差值模板匹配算法。

一种基于结构属性的乌金体藏文古籍字符切分系统，包括：

数据获取模块，用于获取乌金体藏文文本行；

字符区块确定模块，用于对所述乌金体藏文文本行进行粗切分处理，得到多个字符区块；

宽度计算模块，用于确定每个所述字符区块的宽度；

第一切分模块，用于当所述字符区块满足第一要求时，采用连通域分析算法对满足所述第一要求的字符区块进行字符切分；所述第一要求为所述字符区块的宽度小于第一宽度；

第二切分模块，用于当所述字符区块满足第二要求时，对满足所述第二要求的字符区块内的各笔画进行归属处理以完成字符切分；所述第二要求为所述字符区块的宽度大于等于所述第一宽度且所述字符区块的宽度小于第二宽度；

第三切分模块，用于当所述字符区块满足第三要求时，对满足所述第三要求的字符区块进行多字符切分；所述第三要求为所述字符区块的宽度大于等于所述第二宽度。

可选的，所述字符区块确定模块，具体包括：

垂直投影图形成单元，用于对所述乌金体藏文文本行进行垂直投影以形成垂直投影图；

字符区块确定单元，用于利用所述垂直投影图中的空隙将所述乌金体藏文文本行切分成宽度不一的块状，进而得到字符区块。

可选的，所述第三切分模块，具体包括：

字符区块划分单元，用于确定满足所述第三要求的字符区块的局部基线位置，并在所述局部基线位置上将满足所述第三要求的字符区块水平切分为基线上方部和基线下方部；

笔画信息确定单元，用于确定所述基线上方部内各笔画的粘连类型、粘连数量以及粘连位置；

笔画切分单元，用于基于满足所述第三要求的字符区块的局部基线位置、所述基线上方部内各笔画以及各所述笔画的粘连类型、粘连数量和粘连位置，采用多方向、多路径粘连切分算法，对所述基线上方内部的各粘连笔画进行切分；

切分笔画信息确定单元，用于基于基线上方笔画类型及其几何特征表，确定切分后笔画的笔画类型；

断裂笔画确定单元，用于确定所述基线下方部内的断裂笔画；

第三切分单元，用于根据所述断裂笔画以及所述切分后笔画的笔画类型，采用连通域质心和乌金体藏文结构知识对所述断裂笔画和所述切分后笔画进行归属以完成字符切分。

可选的，所述字符区块划分单元，具体包括：

局部基线位置确定子单元，用于当满足所述第三要求的字符区块存在音节点时，采用基于音节点位置信息的检测算法对满足所述第三要求的字符区块的局部基线进行检测以确定满足所述第三要求的字符区块的局部基线位置；当满足所述第三要求的字符区块不存在音节点，则采用结合水平投影与直线检测的检测算法对满足所述第三要求的字符区块的局部基线进行检测以确定满足所述第三要求的字符区块的局部基线位置；

字符区块划分子单元，用于根据所述局部基线位置，对满足所述第三要求的字符区块进行水平切分，以获取基线上方部和基线下方部。

可选的，所述笔画信息确定单元，具体包括：

基线上方粘连类型表确定子单元，用于确定基线上方粘连类型表；所述基线上方粘连类型表包括粘连笔画和粘连类型实例；

粘连模板库确定子单元，用于根据所述基线上方粘连类型表确定粘连模板库；所述粘连模板库包括多种粘连模板类型；

笔画信息确定子单元，用于基于所述粘连模板库和改进的误差值模板匹配算法，对所述基线上方部内的各笔画进行处理，以确定所述基线上方部内各笔画的粘连类型、粘连数量以及粘连位置；所述改进的误差值模板匹配算法包括第一部分和第二部分，所述第一部分为将笔画尺寸调整为当前粘连模板类型的尺寸，第二部分为误差值模板匹配算法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明利用了乌金体藏文的结构属性，提出粗切分与细切分相结合的基于结构属性的乌金体藏文古籍字符切分方法及系统，能够简单、有效、精准地实现乌金体藏文古籍字符切分。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于结构属性的乌金体藏文古籍字符切分方法的流程示意图；

图2为本发明基于结构属性的乌金体藏文古籍字符切分系统的结构示意图；

图3为本发明乌金体藏文古籍字符切分流程图；

图4为本发明字符区块局部基线检测流程图；

图5为本发明切分坐标系与切分方向的示意图；

图6为本发明粘连笔画切分实例图；图6(a)为粘连笔画切分过程(切分方向选用Direction(1))示意图；图6(b)为粘连笔画切分过程(切分方向选用Direction(2))示意图；图6(c)为图6(a)的切分方向(Direction(1))示意图；图6(d)为图6(b)的切分方向(Direction(2))示意图；

图7为本发明字符笔画断裂图；图7(a)为左右交叉型字符笔画断裂图；

图7(b)为上下交叉型字符笔画断裂图；图7(c)为上下相离型字符笔画断裂图；图7(d)为包含型字符笔画断裂图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

少数民族语言信息处理已成为研究热点，藏文古籍文档图像分析与识别是藏文信息处理领域的重要研究内容，而藏文古籍文档字符切分又是其中重要的一环。藏文古籍文本行存在倾斜，且字符之间笔画交叠、交叉、粘连等现象，此外还有不同程度的笔画断裂、噪声干扰等问题，使字符切分变得极具挑战。但通过对文本行投影图观察分析，文本行存在不同间距的空隙，可以将长文本行切分成单独含有音节点、标点或者它们与字符相组合的字符区块。由此，在一定程度上减少长文本行的整体倾斜对字符切分的影响。字符之间的交叠、交叉、粘连以及断裂等问题分散到字符区块内解决。因此，本发明提出粗切分与细切分相结合的字符切分方法及系统。粗切分阶段，采用垂直投影方法将文本行切分成字符区块。细切分阶段，利用音节点位置信息或结合水平投影与直线检测方法检测出字符区块的局部基线，将字符区块水平切分为基线上方和基线下方两部分，解决字符的基线上方笔画与其左右字符粘连问题；利用改进的模板匹配算法检测基线上方笔画的粘连类型，之后利用多方向、多路径粘连切分算法，解决基线上方字符之间的粘连问题；基于连通域质心和藏文结构知识对各笔画进行归属，实现乌金体藏文古籍字符切分。

实施例一

如图1所示，本实施例提供了一种基于结构属性的乌金体藏文古籍字符切分方法，包括如下步骤。

步骤101：获取乌金体藏文文本行。

步骤102：对所述乌金体藏文文本行进行粗切分处理，得到多个字符区块；具体包括：

对所述乌金体藏文文本行进行垂直投影以形成垂直投影图；利用所述垂直投影图中的空隙将所述乌金体藏文文本行切分成宽度不一的块状，进而得到字符区块。

步骤103：确定每个所述字符区块的宽度。

步骤104：当所述字符区块满足第一要求时，采用连通域分析算法对满足所述第一要求的字符区块进行字符切分；所述第一要求为所述字符区块的宽度小于第一宽度。

步骤105：当所述字符区块满足第二要求时，对满足所述第二要求的字符区块内的各笔画进行归属处理以完成字符切分；所述第二要求为所述字符区块的宽度大于等于所述第一宽度且所述字符区块的宽度小于第二宽度。

步骤106：当所述字符区块满足第三要求时，对满足所述第三要求的字符区块进行多字符切分；所述第三要求为所述字符区块的宽度大于等于所述第二宽度；具体包括：

步骤1061：确定满足所述第三要求的字符区块的局部基线位置，并在所述局部基线位置上将满足所述第三要求的字符区块水平切分为基线上方部和基线下方部。

步骤1062：确定所述基线上方部内各笔画的粘连类型、粘连数量以及粘连位置。

步骤1063：基于满足所述第三要求的字符区块的局部基线位置、所述基线上方部内各笔画以及各所述笔画的粘连类型、粘连数量和粘连位置，采用实施例三算法2所示的多方向、多路径粘连切分算法，对所述基线上方内部的各粘连笔画进行切分。

步骤1064：基于实施例三表2所示的基线上方笔画类型及其几何特征表，确定切分后笔画的笔画类型。

步骤1065：确定所述基线下方部内的断裂笔画。

步骤1066：根据所述断裂笔画以及所述切分后笔画的笔画类型，采用实施例三算法3所示的连通域质心和乌金体藏文结构知识对所述断裂笔画和所述切分后笔画进行归属以完成字符切分。

步骤1061具体包括：

当满足所述第三要求的字符区块存在音节点时，采用基于音节点位置信息的检测算法对满足所述第三要求的字符区块的局部基线进行检测以确定满足所述第三要求的字符区块的局部基线位置。

当满足所述第三要求的字符区块不存在音节点，则采用结合水平投影与直线检测的检测算法对满足所述第三要求的字符区块的局部基线进行检测以确定满足所述第三要求的字符区块的局部基线位置。

步骤1062具体包括：

确定实施例三表1所示的基线上方粘连类型表；所述基线上方粘连类型表包括粘连笔画和粘连类型实例。

根据所述基线上方粘连类型表确定粘连模板库；所述粘连模板库包括多种粘连模板类型。

基于所述粘连模板库和实施例三算法1所示的改进的误差值模板匹配算法，对所述基线上方部内的各笔画进行处理，以确定所述基线上方部内各笔画的粘连类型、粘连数量以及粘连位置；所述改进的误差值模板匹配算法包括第一部分和第二部分，所述第一部分为将笔画尺寸调整为当前粘连模板类型的尺寸，第二部分为误差值模板匹配算法。

实施例二

如图2所示，本实施例提供的一种基于结构属性的乌金体藏文古籍字符切分系统，包括：

数据获取模块201，用于获取乌金体藏文文本行。

字符区块确定模块202，用于对所述乌金体藏文文本行进行粗切分处理，得到多个字符区块。

宽度计算模块203，用于确定每个所述字符区块的宽度。

第一切分模块204，用于当所述字符区块满足第一要求时，采用连通域分析算法对满足所述第一要求的字符区块进行字符切分；所述第一要求为所述字符区块的宽度小于第一宽度。

第二切分模块205，用于当所述字符区块满足第二要求时，对满足所述第二要求的字符区块内的各笔画进行归属处理以完成字符切分；所述第二要求为所述字符区块的宽度大于等于所述第一宽度且所述字符区块的宽度小于第二宽度。

第三切分模块206，用于当所述字符区块满足第三要求时，对满足所述第三要求的字符区块进行多字符切分；所述第三要求为所述字符区块的宽度大于等于所述第二宽度。

所述字符区块确定模块202，具体包括：

垂直投影图形成单元，用于对所述乌金体藏文文本行进行垂直投影以形成垂直投影图。

所述第三切分模块206，具体包括：

字符区块划分单元，用于确定满足所述第三要求的字符区块的局部基线位置，并在所述局部基线位置上将满足所述第三要求的字符区块水平切分为基线上方部和基线下方部。

笔画信息确定单元，用于确定所述基线上方部内各笔画的粘连类型、粘连数量以及粘连位置。

笔画切分单元，用于基于满足所述第三要求的字符区块的局部基线位置、所述基线上方部内各笔画以及各所述笔画的粘连类型、粘连数量和粘连位置，采用多方向、多路径粘连切分算法，对所述基线上方内部的各粘连笔画进行切分。

切分笔画信息确定单元，用于基于基线上方笔画类型及其几何特征表，确定切分后笔画的笔画类型。

断裂笔画确定单元，用于确定所述基线下方部内的断裂笔画。

所述字符区块划分单元，具体包括：

局部基线位置确定子单元，用于当满足所述第三要求的字符区块存在音节点时，采用基于音节点位置信息的检测算法对满足所述第三要求的字符区块的局部基线进行检测以确定满足所述第三要求的字符区块的局部基线位置；当满足所述第三要求的字符区块不存在音节点，则采用结合水平投影与直线检测的检测算法对满足所述第三要求的字符区块的局部基线进行检测以确定满足所述第三要求的字符区块的局部基线位置。

所述笔画信息确定单元，具体包括：

基线上方粘连类型表确定子单元，用于确定基线上方粘连类型表；所述基线上方粘连类型表包括粘连笔画和粘连类型实例。

粘连模板库确定子单元，用于根据所述基线上方粘连类型表确定粘连模板库；所述粘连模板库包括多种粘连模板类型。

实施例三

如图3所示，本实施例提供的基于结构属性的乌金体藏文古籍字符切分方法，包括如下步骤。

步骤S1：获取乌金体藏文文本行。

步骤S2：对乌金体藏文文本行进行粗切分处理，得到多个字符区块。

步骤S2具体包括：对所有乌金体藏文文本行进行垂直投影，形成垂直投影图；然后，利用垂直投影图中的空隙将乌金体藏文文本行切分成宽度不一的块状；最后，得到字符区块。

步骤S3：确定每个字符区块的宽度。

步骤S4：对每个字符区块进行细分阶段处理以完成字符切分。

步骤S4具体包括：对不同宽度的字符区块进行不同处理。

获取输入字符区块的宽度width，比较宽度width与平均字符宽AvgWidth的大小。若width小于0.5*AvgWidth，字符区块内为一个音节点或标点符号，直接利用连通域分析算法即可得到一个完整符号；若width大于等于0.5*AvgWidth且小于1.5*AvgWidth，绝大多数的字符区块内仅有一个字符，字符区块内可能存在笔画断裂，需对字符区块内的各笔画进行归属，完成字符切分；若width大于等于1.5*AvgWidth，则字符区块内至少存在一个字符，字符区块内可能出现交叠、交叉、粘连以及断裂等现象，需进入多字符切分步骤。

多字符切分步骤具体为：第一步，检测字符区块的局部基线，并在局部基线位置将字符区块水平切分为基线上方和基线下方两部分；第二步，检测基线上方笔画的粘连及其类型；第三步，根据笔画的不同粘连类型，采取不同的方向、路径对不同粘连类型的笔画进行切分；第四步，判断切分后笔画的笔画类型，以及统计基线下方的笔画断裂情况；第五步，结合连通域质心和藏文结构知识对各笔画进行归属。第六步，完成字符切分。

多字符切分的具体过程如下：

1基线检测与水平切分

字符区块的局部基线位置信息可以通过字符水平投影检测得到，由于藏文字符结构多样，导致检测出的局部基线位置信息并不准确。因此，本发明提出基于音节点位置信息的检测方法或结合水平投影与直线检测的检测方法对字符区块的局部基线进行检测。字符区块局部基线检测算法如图4所示。

图4的输入为字符区块。首先，对字符区块进行连通域分析，得到连通域的位置坐标、宽度、高度、面积以及质心坐标等信息；统计音节点的数量pointNum。然后，判断音节点的个数pointNum是否大于0，若音节点个数pointNum大于0，则该字符区块存在音节点，所有音节点连通域的Y坐标最小值为局部基线位置，否则计算所有连通域Y坐标的最大值与最小值；若最大值与最小值的之差小于阈值，则最小值为局部基线位置，否则对字符区块进行水平投影和Hough直线检测，得到候选基线1和候选基线2；最后，比较候选基线1和候选基线2的差的绝对值，若绝对值大于阈值，候选基线2为局部基线位置，否则候选基线1为基线位置。

获得字符区块的局部基线位置后，在其基线位置处进行水平切分。

2粘连及其类型检测

字符区块被水平切分成基线上方和基线下方两部分，基线上方的笔画由上元音及其他符号组成。若基线上方存在粘连，严重影响字符切分质量，因此需对粘连及其类型进行检测，为下一步粘连切分做好准备。

从基线上方的笔画中挑选出所有粘连笔画，并进行分类，形成14种基线上方粘连类型，如表1所示。表1中的粘连笔画表示粘连类型的组成笔画，粘连类型实例表示不同粘连方向和不同程度的实际粘连类型，相同粘连类型实例归为同一类粘连模板。因藏文基线上方笔画尺寸较小，给区分粘连与非粘连造成一定困难，因此将基线上方非粘连的笔画也一并作为一类粘连模板，以提高模板匹配精度。利用每一类粘连模板的平均尺寸对该粘连类型下所有粘连模板进行尺寸归一化处理，形成粘连模板库。

表1基线上方粘连类型表

采用改进的模板匹配算法对基线上方笔画的粘连及其类型进行检测。

基线上方笔画尺寸较小，直接采用粘连模板与待匹配图像的像素误差值作为匹配评判标准。因粘连模板种类多，且不同粘连模板类型之间的尺寸不统一，给匹配带来困难。因此对传统的基于误差值模板匹配算法进行了改进，待匹配的笔画在匹配计算前，先将尺寸调整为当前粘连模板类型的尺寸，实现匹配过程中尺寸动态调整。粘连及其类型检测算法如算法1所示。

算法1粘连及其类型检测算法。

输入：基线上方笔画upperStrokes。

步骤1：获取当前粘连模板类型中的模板宽度信息和模板高度信息。

步骤2：根据步骤1获取的模板宽度信息和模板高度信息对基线上方笔画的尺寸进行调整。

步骤3：读取当前粘连模板类型中的模板template。

步骤4：根据差平方和公式，计算基线上方笔画与步骤3读取模板的像素误差值sqrErr，并将计算结果存入当前粘连模板类型的差平方误差数组eachTypeSqrErr中。

差平方和计算公式为：

上式中M、N分别为基线上方笔画或模板的高度和宽度。

步骤5：重复步骤3至步骤4，直至基线上方笔画与当前粘连模板类型中的所有模板完成误差计算。

步骤6：计算当前粘连模板类型的误差数组eachTypeSqrErr中的最小值，并将最小值作为基线上方笔画与当前粘连模板类型的匹配结果存入所有粘连模板类型的误差数组allTypeSqrErr。

步骤7：重复步骤1至步骤5，直至基线上方笔画与所有粘连模板类型的所有模板完成误差计算。

步骤8：计算所有粘连模板类型的误差数组allTypeSqrErr中的最小值minAllType以及其在误差数组中的索引位置resultIndex。

步骤9：通过索引位置从存放所有粘连模板类型的文件，即粘连模板库中获取基线上方笔画的粘连类型。

输出：基线上方笔画粘连类型。

通过上述模板匹配得到基线上方笔画的粘连类型，同时也获得了基线上方笔画的粘连数量、粘连笔画所在位置等信息。

3粘连切分

对藏文古籍出现的复杂粘连问题，提出多方向、多路径粘连切分算法。首先根据藏文古籍粘连特点预设多个切分方向，对已知粘连类型的笔画做形态学骨架化处理，得到粘连笔画的骨架图，并在骨架图的一定范围内中找出分支点branchPoint，结合粘连类型和分支点确定切分起点；然后计算分支点branchPoint在左右两方向上一定距离内骨架延伸的像素量leftExtPixel和rightExtPixel，并计算切分起点与左右两方向上延伸像素量的端点构成直线的斜率，选择相应方向作为切分方向；最后结合延伸的像素量leftExtPixel和rightExtPixel分别与延伸阈值extThreshold的大小以及它们的不同组合，形成多个切分路径。

通过对藏文古籍的粘连类型的统计观察，虽然粘连类型多达14种，但多数粘连类型能够在45度、90度或135度方向被正确切分。为解决少数粘连类型在以上3个方向不能被正确切分的问题，进一步对坐标系内的切分方向进行细化，得到1至7共7个切分方向。切分坐标系与切分方向如图5所示，其中X-Y为图像坐标系，x-y为切分方向坐标系。如图5所示，45度、90度以及135度方向分别对应Direction(2)、Direction(4)以及Direction(6)，其他方向由45度、135度对应正切函数值的0.5倍和2倍组成。在粘连切分x-y坐标系的一个象限内，相邻两个切分方向所构成角度的角平分线为选择切分方向的界线boundary(以虚线表示)。

根据分支点左右延伸的像素量leftExtPixel和rightExtPixel分别与延伸阈值extThreshold的大小，可以组合成如下四种大小关系：

根据藏文古籍字符结构特点，不同的组合关系形成不同的切分路径，进而形成多个切分路径。

多方向、多路径粘连切分算法如算法2所示，其粘连笔画切分过程如图6所示。

算法2多方向、多路径粘连切分算法。

输入：基线上方粘连的笔画、粘连数量、粘连位置、粘连类型以及字符区块基线位置信息。

步骤1：对基线上方粘连的笔画做形态学骨架化处理，得到骨架图。在骨架图的一定范围内查找分支点。若不存在分支点，则进入步骤2，否则进入步骤3。

步骤2：结合粘连类型，在Direction(4)(90度方向)对粘连笔画进行切分。例如

粘连类型在其宽度的1/3处切分，

粘连类型在其宽度的1/2处切分，

粘连类型在其宽度的2/3处垂直切分。

步骤3：记录分支点坐标信息。若在笔画分支处检测出多个候选分支点，则取X坐标最小的分支点作为该笔画的分支点branchPoint。

步骤4：结合粘连类型和分支点branchPoint，确定切分起点segStartPoint。

步骤5：以骨架图的分支点branchPoint为起点，在一定范围内计算骨架向左延伸和向右延伸的像素量leftExtPixel和rightExtPixel。

步骤6：根据斜率计算公式计算切分起点segStartPoint分别与左右延伸像素端点leftEndPoint和rightEndPoint构成的直线斜率K。

以切分起点segStartPoint与左延伸笔画端点leftEndPoint构成的直线为例，斜率计算公式为：

步骤7：根据步骤6的直线斜率K，选择相应方向作为切分方向。arctan(K)为切分起点segStartPoint与左右延伸笔画端点leftEndPoint和rightEndPoint构成的直线斜率对应的度数。根据arctan(K)值和界线boundary，选择最邻近的方向作为切分方向。

步骤8：结合粘连类型与leftExtPixel和rightExtPixel与延伸阈值extThreshold的大小以及它们的不同组合，并从切分起始点segStartPoint出发以不同切分路径对粘连笔画进行切分。

步骤9：若笔画存在多处粘连，则重复步骤3至步骤8。

输出：粘连切分后的笔画。

粘连切分后，需确定字符区块基线上方笔画的类型，为后续笔画归属提供依据。设Y_left为笔画连通域左侧第一列白色(前景)像素中对应最大的Y坐标，Y_right为笔画连通域右侧最后第一列白色(前景)像素对应最大的Y坐标，Y_centroid为笔画连通域质心Y坐标。

藏文古籍中有大量的梵音藏文，基线上方笔画类型也相应增多，但大部分笔画不会影响字符切分。因此，总结出基线上方可能影响字符切分效果的笔画类型及其几何特征，如表2所示。

表2基线上方笔画类型及其几何特征表

根据表2中的各类型笔画的几何特征，对基线上方笔画类型和数量进行统计。若字符区块中同时出现表2中的1号笔画和9号笔画，1号笔画与9号笔画的左侧笔画具有相同的几何特征，则需要进一步增加判断条件，即1号笔画单独出现，无右侧笔画与其配对，而9号笔画的左右两个笔画需成对出现。

4基线下方断裂笔画统计

至此，解决了基线上方所有的粘连问题。断裂是藏文古籍文本的普遍现象，严重影响字符切分效果。基线上方的断裂(如9号笔画)已通过表2的基线上方笔画类型及其几何特征确定。通过统计基线下方的断裂笔画数量，为下一步的笔画归属提供依据。

通过基线下方断裂情况观察可知，断裂常出现在纵向笔画较细位置，对此总结出4种断裂情况，如图7所示。大方框和小方框分别代表不同断裂笔画的连通域外接矩形框，A和B表示对应断裂笔画连通域的质心。

根据以上4种断裂情况，归纳出判断基线下方笔画断裂的方法，除A、B笔画连通域位于基线下方的基本条件外，笔画连通域的质心X坐标、上边界Y坐标以及面积需同时满足条件，才能判断为断裂。判断条件如下：

其中，A_centroidX、B_centroidX以及centroidThreshold分别表示A连通域质心X坐标、B连通域质心X坐标以及连通域质心水平距离阈值，A_upperY、B_upperY以及upperThresold分别表示A连通域上边界Y坐标、B连通域上边界Y坐标以及连通域上边界距离阈值，A_area、B_area分别表示连通域的面积。设置面积阈值判断是为了避免音节点对断裂判断的影响。

在断裂统计过程中，若基线下方两个笔画连通域满足判断条件，则被判断为断裂，断裂数量加1，否则不存在断裂。

5笔画归属

笔画归属是字符切分的最后阶段，具体是将字符各笔画按照正确的文字结构放到对应的位置。根据粗切分后字符区块的宽度，将笔画归属初次划分为三类进行处理，即不需要归属、单字符归属以及多字符归属。对于多字符归属，根据基线上方笔画类型、数量以及基线下方笔画断裂数量等情况，再次划分两类。第一类是基线上方无笔画且基线下方无断裂，各连通域均为字符；第二类是除第一类以外的所有情况组合，需计算字符区块内各笔画之间的质心水平距离distCentroidX，若质心水平距离distCentroidX小于距离阈值distThreshold则存入待归属数组mergeArray中，反之，则连通域为字符；根据藏文古籍字符特点，归属前需对数组mergeArray进行修正；对数组mergeArray中的笔画进行归属。

笔画归属算法如算法3所示。

算法3笔画归属算法。

输入：字符区块的各个连通域。

步骤1：获取输入字符区块的宽度width。

步骤2：比较字符宽度width与平均字符宽Avgwidth的大小。若width小于0.5*Avgwidth,字符区块内的连通域为音节点或标点符号；若width大于等于0.5*Avgwidth，且width小于1.5*Avgwidth，将各笔画归属为一个完整字符；若width大于等于1.5*Avgwidth，字符区块内有多个字符，进入步骤3的多字符归属。

步骤3：判断字符区块是否满足基线上方无笔画并且基线下方无笔画断裂。若满足，则各连通域均为字符，否则进入步骤4。

步骤4：比较字符区块所有笔画的质心水平距离distCentroidX。若质心水平距离distCentroidX小于距离阈值distThreshold的笔画存入待归属数组mergeArray中，否则连通域为字符。

步骤5：根据藏文古籍字符的特点，对mergeArray数组进行修正。

步骤6：对mergeArray数组中的笔画逐一进行归属。先从mergeArray数组中查找是否存在基线上方笔画，若存在，则以该笔画为基础根据质心水平距离阈值distThreshold在基线上方和下方查找同属于一个字符的笔画，完成归属；否则只需要对基线下方的断裂笔画进行归属。

输出：藏文古籍字符。

表2中3号至8号笔画类型在藏文古籍中文本中与其基线下方笔画左右位置偏移较小，利用各笔画的质心水平距离distCentroidX将基线上方和下方的笔画归属为一个完整的字符。

表2中的1号

2号

以及9号

类型，因其书写特点或断裂问题，使质心坐标信息不能将所有含有此类笔画的字符都归属正确。因2号笔画类型是由两个1号笔画左右叠加而成，归属方法相同，此处仅阐述1号笔画和9号笔画类型的归属结果，具体如下：

1)1号笔画类型在藏文古籍字符中与其基线下方笔画左右偏移大小不稳定，在一些字符中处于靠左的位置，而在另一些字符中处于靠右的位置。因此，利用质心水平距离归属此类笔画并不能完全解决归属问题。通过对此类笔画类型的观察，利用此类笔画连通域右侧边界的坐标信息与其基线下方笔画进行归属，可以减少因左右偏移大小不稳定所造成的影响。

2)9号

笔画类型是由6号

类型断裂而成，断裂后的左笔画与1号

笔画类型具有相同的几何特征，断裂后的右笔画常处于其右侧相邻字符的基线上方，使归属变得困难。利用左右笔画的质心水平坐标计算该笔画类型的整体质心的水平坐标centroidX。实现整体质心“前移”，从而解决归属问题。

左右笔画整体质心的水平坐标计算公式为：

centroidX＝(leftCentroidX+rightCentroidX)/2

上式中leftCentroidX为左侧笔画质心的水平坐标，rightCentroidX为右侧笔画质心的水平坐标。

3)1号笔画与9号笔画以左右相邻位置关系出现在同一个字符区块内，使笔画归属变得更加困难。字符区块基线上方同时出现了1号笔画和9号笔画类型，并且以

笔画类型交替的方式出现。这些情况同时出现后，容易导致归属错误。解决此类问题需结合基线上方笔画的质心水平距离与笔画类型，并且以基线上方笔画为基础对字符各笔画进行归属。

本发明创新部分如下：

1、局部基线检测算法。利用音节点位置信息的检测方法或结合水平投影和直线检测的检测方法完成字符区块局部基线检测。

2、粘连及其类型检测。从基线上方笔画中挑选出所有粘连笔画，并进行分类，形成14种基线上方粘连类型，并利用每一类模板的平均尺寸对该类型下所有模板进行尺寸归一化处理，形成模板库。利用改进的模板匹配算法对每一个字符区块上方笔画的粘连情况进行检测。

3、粘连切分。本发明提出多方向、多路径粘连切分算法。首先根据藏文古籍粘连特点预设多个切分方向，对已知粘连类型的笔画做骨架化处理，得到粘连笔画的骨架图，在骨架图的一定范围内中找出分支点branchPoint，结合粘连类型和分支点确定切分起点；然后计算分支点branchPoint在左右两方向上一定距离内骨架延伸的像素量leftExtPixel和rightExtPixel，并计算切分起点与左右两方向上延伸像素量的端点构成直线的斜率，选择相应方向作为切分方向；最后结合延伸的像素量leftExtPixel和rightExtPixel分别与延伸阈值extThreshold的大小以及它们的不同组合，形成多个切分路径。

4、基线下方断裂笔画统计。断裂是藏文古籍文本的普遍现象，严重影响字符切分效果。基线上方的断裂(如9号笔画)已通过表2的基线上方笔画类型及其几何特征确定。通过基线下方断裂情况观察可知，断裂常出现在纵向笔画较细位置，对此总结出图7所示的4种断裂情况。通过统计基线下方的断裂笔画数量，为下一步的笔画归属提供依据。

5、笔画归属。笔画归属是字符切分的最后阶段，具体是将字符各笔画按照正确的文字结构放到对应的位置。根据粗切分后字符区块的宽度，将笔画归属初次划分为三类进行处理，即不需要归属、单字符归属以及多字符归属。对于多字符的归属，根据基线上方笔画类型、数量以及基线下方笔画断裂数量等情况，再次划分两类。第一类是基线上方无笔画且基线下方无断裂，各连通域均为字符；第二类是除第一类以外的所有情况组合，需计算字符区块内各笔画之间的质心水平距离distCentroidX，若小于距离阈值distThreshold则存入待归属数组mergeArray中，反之，则连通域为字符；根据藏文古籍字符特点，归属前需对数组mergeArray进行修正；对数组mergeArray中的笔画进行归属。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于结构属性的乌金体藏文古籍字符切分方法，其特征在于，包括：

获取乌金体藏文文本行；

确定每个所述字符区块的宽度；

当所述字符区块满足第三要求时，对满足所述第三要求的字符区块进行多字符切分；所述第三要求为所述字符区块的宽度大于等于所述第二宽度；

所述当所述字符区块满足第三要求时，对满足所述第三要求的字符区块进行多字符切分，具体包括：

多方向、多路径粘连切分算法：

输入：基线上方粘连的笔画、粘连数量、粘连位置、粘连类型以及字符区块基线位置信息；

步骤1：对基线上方粘连的笔画做形态学骨架化处理，得到骨架图；在骨架图的一定范围内查找分支点；若不存在分支点，则进入步骤2，否则进入步骤3；

步骤2：结合粘连类型，在90度方向对粘连笔画进行切分；

步骤3：记录分支点坐标信息；若在笔画分支处检测出多个候选分支点，则取X坐标最小的分支点作为该笔画的分支点branchPoint；

步骤4：结合粘连类型和分支点branchPoint，确定切分起点segStartPoint；

步骤5：以骨架图的分支点branchPoint为起点，在一定范围内计算骨架向左延伸和向右延伸的像素量leftExtPixel和rightExtPixel；

步骤6：根据斜率计算公式计算切分起点segStartPoint分别与左右延伸像素端点leftEndPoint和rightEndPoint构成的直线斜率K；

步骤7：根据步骤6的直线斜率K，选择相应方向作为切分方向；arctan(K)为切分起点segStartPoint与左右延伸笔画端点leftEndPoint和rightEndPoint构成的直线斜率对应的度数；根据arctan(K)值和界线boundary，选择最邻近的方向作为切分方向；

步骤8：结合粘连类型与leftExtPixel和rightExtPixel与延伸阈值extThreshold的大小以及它们的不同组合，并从切分起始点segStartPoint出发以不同切分路径对粘连笔画进行切分；

步骤9：若笔画存在多处粘连，则重复步骤3至步骤8；

输出：粘连切分后的笔画；

确定所述基线下方部内的断裂笔画；

根据所述断裂笔画以及所述切分后笔画的笔画类型，采用连通域质心和乌金体藏文结构知识对所述断裂笔画和所述切分后笔画进行归属以完成字符切分；

笔画归属算法：

输入：字符区块的各个连通域；

步骤1：获取输入字符区块的宽度width；

步骤2：比较字符宽度width与平均字符宽Avgwidth的大小；若width小于0.5*Avgwidth,字符区块内的连通域为音节点或标点符号；若width大于等于0.5*Avgwidth，且width小于1.5*Avgwidth，将各笔画归属为一个完整字符；若width大于等于1.5*Avgwidth，字符区块内有多个字符，进入步骤3的多字符归属；

步骤3：判断字符区块是否满足基线上方无笔画并且基线下方无笔画断裂；若满足，则各连通域均为字符，否则进入步骤4；

步骤4：比较字符区块所有笔画的质心水平距离distCentroidX；若质心水平距离distCentroidX小于距离阈值distThreshold的笔画存入待归属数组mergeArray中，否则连通域为字符；

步骤5：根据藏文古籍字符的特点，对mergeArray数组进行修正；

步骤6：对mergeArray数组中的笔画逐一进行归属；先从mergeArray数组中查找是否存在基线上方笔画，若存在，则以该笔画为基础根据质心水平距离阈值distThreshold在基线上方和下方查找同属于一个字符的笔画，完成归属；否则只需要对基线下方的断裂笔画进行归属。

2.根据权利要求1所述的一种基于结构属性的乌金体藏文古籍字符切分方法，其特征在于，所述对所述乌金体藏文文本行进行粗切分处理，得到多个字符区块，具体包括：

对所述乌金体藏文文本行进行垂直投影以形成垂直投影图；

3.根据权利要求1所述的一种基于结构属性的乌金体藏文古籍字符切分方法，其特征在于，所述确定满足所述第三要求的字符区块的局部基线位置，并在所述局部基线位置上将满足所述第三要求的字符区块水平切分为基线上方部和基线下方部，具体包括：

首先，对满足所述第三要求的字符区块进行连通域分析，得到连通域的位置坐标、宽度、高度、面积以及质心坐标信息，并统计音节点的数量pointNum；然后，判断音节点的个数pointNum是否大于0，若音节点个数pointNum大于0，则该字符区块存在音节点，所有音节点连通域的Y坐标最小值为局部基线位置，否则计算所有连通域Y坐标的最大值与最小值；若最大值与最小值的之差小于阈值，则最小值为局部基线位置，否则对字符区块进行水平投影和Hough直线检测，得到候选基线1和候选基线2；最后，比较候选基线1和候选基线2的差的绝对值，若绝对值大于阈值，候选基线2为局部基线位置，否则候选基线1为局部基线位置；

获得字符区块的局部基线位置后，在字符区块的局部基线位置处进行水平切分，得到基线上方部和基线下方部。

4.根据权利要求1所述的一种基于结构属性的乌金体藏文古籍字符切分方法，其特征在于，所述确定所述基线上方部内各笔画的粘连类型、粘连数量以及粘连位置，具体包括：

基于所述粘连模板库和改进的误差值模板匹配算法，对所述基线上方部内的各笔画进行处理，以确定所述基线上方部内各笔画的粘连类型、粘连数量以及粘连位置；所述改进的误差值模板匹配算法包括第一部分和第二部分，所述第一部分为将笔画尺寸调整为当前粘连模板类型的尺寸，第二部分为误差值模板匹配算法；

所述基于所述粘连模板库和改进的误差值模板匹配算法，对所述基线上方部内的各笔画进行处理，以确定所述基线上方部内各笔画的粘连类型、粘连数量以及粘连位置，具体为：

步骤1：获取当前粘连模板类型中的模板宽度信息和模板高度信息；

步骤2：根据步骤1获取的模板宽度信息和模板高度信息对基线上方笔画的尺寸进行调整；

步骤3：读取当前粘连模板类型中的模板template；

步骤4：根据差平方和公式，计算基线上方笔画与步骤3读取模板的像素误差值sqrErr，并将计算结果存入当前粘连模板类型的差平方误差数组eachTypeSqrErr中；

步骤5：重复步骤3至步骤4，直至基线上方笔画与当前粘连模板类型中的所有模板完成误差计算；

步骤6：计算当前粘连模板类型的误差数组eachTypeSqrErr中的最小值，并将最小值作为基线上方笔画与当前粘连模板类型的匹配结果存入所有粘连模板类型的误差数组allTypeSqrErr；

步骤7：重复步骤1至步骤5，直至基线上方笔画与所有粘连模板类型的所有模板完成误差计算；

步骤8：计算所有粘连模板类型的误差数组allTypeSqrErr中的最小值minAllType以及其在误差数组中的索引位置resultIndex；

步骤9：通过索引位置从存放所有粘连模板类型的文件，即粘连模板库中获取基线上方笔画的粘连类型；

通过上述模板匹配得到基线上方笔画的粘连类型，同时也获得了基线上方笔画的粘连数量、粘连笔画所在位置信息。

5.一种基于结构属性的乌金体藏文古籍字符切分系统，其特征在于，包括：

数据获取模块，用于获取乌金体藏文文本行；

宽度计算模块，用于确定每个所述字符区块的宽度；

第三切分模块，用于当所述字符区块满足第三要求时，对满足所述第三要求的字符区块进行多字符切分；所述第三要求为所述字符区块的宽度大于等于所述第二宽度；

所述第三切分模块，具体包括：

多方向、多路径粘连切分算法：

步骤2：结合粘连类型，在90度方向对粘连笔画进行切分；

步骤9：若笔画存在多处粘连，则重复步骤3至步骤8；

输出：粘连切分后的笔画；

第三切分单元，用于根据所述断裂笔画以及所述切分后笔画的笔画类型，采用连通域质心和乌金体藏文结构知识对所述断裂笔画和所述切分后笔画进行归属以完成字符切分；

笔画归属算法：

输入：字符区块的各个连通域；

步骤1：获取输入字符区块的宽度width；

6.根据权利要求5所述的一种基于结构属性的乌金体藏文古籍字符切分系统，其特征在于，所述字符区块确定模块，具体包括：

7.根据权利要求5所述的一种基于结构属性的乌金体藏文古籍字符切分系统，其特征在于，所述字符区块划分单元，具体包括：

局部基线位置确定子单元，用于首先，对满足所述第三要求的字符区块进行连通域分析，得到连通域的位置坐标、宽度、高度、面积以及质心坐标信息，并统计音节点的数量pointNum；然后，判断音节点的个数pointNum是否大于0，若音节点个数pointNum大于0，则该字符区块存在音节点，所有音节点连通域的Y坐标最小值为局部基线位置，否则计算所有连通域Y坐标的最大值与最小值；若最大值与最小值的之差小于阈值，则最小值为局部基线位置，否则对字符区块进行水平投影和Hough直线检测，得到候选基线1和候选基线2；最后，比较候选基线1和候选基线2的差的绝对值，若绝对值大于阈值，候选基线2为局部基线位置，否则候选基线1为局部基线位置；

字符区块划分子单元，用于获得字符区块的局部基线位置后，在字符区块的局部基线位置处进行水平切分，得到基线上方部和基线下方部。

8.根据权利要求5所述的一种基于结构属性的乌金体藏文古籍字符切分系统，其特征在于，所述笔画信息确定单元，具体包括：

笔画信息确定子单元，用于基于所述粘连模板库和改进的误差值模板匹配算法，对所述基线上方部内的各笔画进行处理，以确定所述基线上方部内各笔画的粘连类型、粘连数量以及粘连位置；所述改进的误差值模板匹配算法包括第一部分和第二部分，所述第一部分为将笔画尺寸调整为当前粘连模板类型的尺寸，第二部分为误差值模板匹配算法；

步骤3：读取当前粘连模板类型中的模板template；