CN104866117B

CN104866117B - 基于图形拓扑特征进行识别的纳西东巴象形文字输入方法

Info

Publication number: CN104866117B
Application number: CN201510295773.1A
Authority: CN
Inventors: 王海燕; 王红军; 陈晓
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2015-06-02
Filing date: 2015-06-02
Publication date: 2017-07-28
Anticipated expiration: 2035-06-02
Also published as: CN104866117A

Abstract

本发明涉及一种基于图形拓扑特征进行识别的纳西东巴象形文字输入方法，以东巴经典为蓝本提取5类拓扑特征值，并作为特征码存入数据表，以东巴象形文字的unicode编码作为识别码；按5个特征码顺序输入需要的纳西象形文字的拓扑特征，输入全部5个拓扑特征，或选择性部分输入易识别的拓扑特征，不易识别的拓扑特征用*代替；利用输入法根据输入的拓扑特征在数据表内进行查找；当用户选定需要输入的东巴字后，在数据表中查询该东巴字对应的Unicode编码；根据Unicode编码在字库中提取对应的纳西象形文字轮廓数据并进行显示，使此一个完整的纳西东巴象形文字的输入完成。本发明不需要记忆、重码少、上手快、效率高，可以广泛在文字输入领域中应用。

Description

基于图形拓扑特征进行识别的纳西东巴象形文字输入方法

技术领域

本发明涉及一种文字输入方法，特别是关于一种基于图形拓扑特征进行识别的纳西东巴象形文字输入方法。

背景技术

东巴文是一种兼备表意和表音成分的图画象形文字，其文字形态十分原始，甚至比甲骨文的形态还要原始，属于文字起源的早期形态，是世界上极少数依旧活着的象形文字，被誉为文字的“活化石”，被国际学界认为是当今世界上唯一还在使用的象形文字。2003年纳西族东巴经典古籍被联合国教科文组织列为“世界记忆遗产”，2012年度国家社科基金重大项目——“世界记忆遗产”东巴经典传承体系数字化国际共享平台建设研究(项目号：12&ZD234)开始实施，大量东巴经典古籍从国内及国外图书馆、研究机构等进行汇集整理，而精通东巴文字的专家太少，文献资料的录入、整理、分析工作任务艰巨，同时对于纳西族东巴文化的研究、传播、保护、继承等工作来说，发明一种简易的输入法是最基础、最关键的一步。

目前针对纳西东巴文的输入方法主要有以下三种：1、拼音输入方法：即通过输入东巴文字的纳西发音来进行输入。但是拼音输入法一方面重码率高、字的输入速度慢，另一方面需要用户对纳西读音非常熟悉，对于普通用户来说，不容易掌握，所以根据拼音输入纳西东巴象形文字的方法只能适用于极少数东巴专家，对于更广泛的民众来说难度过高。2、形码输入方法相对于拼音输入方法而言，重码率较低，比如大连民族学院发明的根据特定图块作为编码单元进行纳西象形文字输入的方法，其缺点同样是需要用户对东巴文字非常熟悉，需要具备快速分解东巴文字到指定图块的能力，并且需要记忆不同的编码单元所对应的键盘位置，掌握起来需要较长的时间。3、分类拼意输入法相对于以上两种方法来说，重码率降低，但是东巴经典古籍所涉的领域包括哲学、历史、宗教、医学、天文、地理、民俗、动植物、军事、文学和艺术等方面，其文字根据方国瑜字典可以分为天象、地理、植物、飞禽、走兽、虫鱼、人称、人事、形体、服饰、饮食、居住、器用、行止、形状、数名、宗教、传说古人名号等18类，分类较多，分类编码复杂，除此之类，大理学院发明的该输入方法还需要记忆拼意编码，同以上两种方法一样，对于普通用户来说，使用复杂、掌握耗时。

发明内容

针对上述问题，本发明的目的是提供一种基于图形拓扑特征进行识别的纳西东巴象形文字输入方法，该方法不需要记忆、重码少、上手快、效率高。

为实现上述目的，本发明采取以下技术方案：一种基于图形拓扑特征进行识别的纳西东巴象形文字输入方法，其特征在于，所述输入方法包括以下步骤：1)根据纳西东巴象形文字的特点，以现有东巴经典为蓝本，提取所有东巴象形文字的5类拓扑特征值：块数、孔数、端点个数、三叉点数和四叉点数，将这些特征值作为特征码存入数据表，以东巴象形文字的unicode编码作为识别码；2)通过数字键盘按5个特征码顺序输入需要的纳西象形文字的拓扑特征，输入全部5个拓扑特征，或选择性部分输入易识别的拓扑特征，不易识别的拓扑特征用*代替；3)利用输入法根据输入的拓扑特征在步骤1)中的数据表内进行查找；4)在数据表中查询到匹配全部特征码或者部分特征码的纳西象形文字后，显示所有符合这些特征码的纳西东巴象形文字，用户根据自己的需要选择其一；5)当用户选定需要输入的东巴字后，在步骤1)数据表中查询该东巴字对应的Unicode编码；6)根据Unicode编码在字库中提取对应的纳西象形文字轮廓数据并进行显示，使此一个完整的纳西东巴象形文字的输入完成。

所述步骤1)中，将所有块数、孔数、端点个数、三叉点数和四叉点数这五种特征数大于9的统一标记为9。

所述步骤2)中，所述5个特征码顺序为：块数、孔数、端点数、三叉点数、四叉点数。

所述步骤3)中，如果用户输入的是全部特征码，则输入法要在数据表中通过“合并”属性进行查询；如果用户输入的是部分特征码，则输入法根据特征码顺序进行相应属性查找。

所述输入法包括以下步骤：①首先加载已创建好的东巴文字标准字库；②判断该东巴文字标准字库是否存在，存在则进入布局设置；反之返回步骤①；③进行特征码输入，根据用户要显示的东巴文字，输入该东巴文字的全部特征码或者部分特征码；④根据输入特征码的特征形成检索条件：全部特征码的检索条件是在数据表中进行“合并”；部分特征码的检索条件是根据特征码顺序；⑤按照该检索条件在数据表中进行检索，得到用户希望显示的东巴文字的unicode编码；⑥根据步骤⑤检索到的unicode编码在东巴文字标准字库文件中检索该字形并进行显示。

本发明由于采取以上技术方案，其具有以下优点：1、本发明根据东巴象形文字的特点，提取这些象形文字的5类拓扑特征：块数、孔数、端点数、三叉点数、四叉点数，将特征结果记录到数据库中，用户在输入时只需要在数字键盘输入全部5个特征组合或者部分特征组合即可得到一个或几个对应的东巴字，然后选择需要输入的东巴字，人工输入、识别的效率较高。2、本发明具有简单、直观、易学、高效的特点，用户不需要记忆编码规则和输入方法，只需要分析简单的拓扑特征，利用数字键盘即可输入，对于东巴象形文字不够熟悉的用户能够快速掌握并迅速提高输入效率，使其能够在计算机上进行输入和交流，可应用于纳西东巴象形文字的输入以及图形分析方面。3、本发明与纳西东巴象形文字库配合还可以快速整理纳西东巴经典古籍、对古籍资料进行数字化分析，针对东巴经典古籍急需抢救的濒危状况使用该种输入方法更能扩大使用者范围、提高输入和研究效率，对于加快抢救民族文化遗产、实现东巴经典古籍的数字化、积累人类文明发展素材具有重大意义。本发明可以广泛在文字输入领域中应用。

附图说明

图1是本发明的输入法流程示意图。

具体实施方式

下面结合实施例和附图对本发明进行详细的描述。

本发明提供一种基于图形拓扑特征进行识别的纳西东巴象形文字输入方法，其包括以下步骤：

1)根据纳西东巴象形文字的特点，以东巴经典为蓝本(例如以方国瑜《纳西象形文字谱》为蓝本)，提取所有东巴象形文字的5类拓扑特征值：块数(即图论中的连通体个数)、孔数、端点个数(度数为1的点数)、三叉点数(度数为3的点数)和四叉点数(度数为4的点数)，将这些特征值作为特征码存入数据表，以东巴象形文字的Unicode编码作为识别码；

以字为例，其Unicode编码是E904，对应的块数为1，孔数为2，端点数为4，三叉点数为0，四叉点数为3，则其特征码分别为1、2、4、0、3，这5个特征码合并后为12403；

同时为了简化输入工作量，将所有以上五种特征数大于9的统一标记为9，如表1所示。

表1据纳西东巴象形文字拓扑特征

2)用户通过数字键盘按5个特征码顺序输入需要的纳西象形文字的拓扑特征，可以输入全部5个拓扑特征，也可以是选择性部分输入易识别的拓扑特征，不易识别的拓扑特征用*代替。比如某些字的孔数或者三叉点数过多不易快速识别，则可以用*代替。其中，5个特征码顺序为：块数、孔数、端点数、三叉点数、四叉点数。

例如用户想输入时，可以直接在数字键盘上输入该字的5个拓扑特征码“12403”，也可以输入部分特征，如124**或者12*0*等。

3)利用基于Java的输入法可以根据输入的拓扑特征(比如“12403”或者“12*0*”)在步骤1)中的数据表内进行查找。如果用户输入的是全部特征码(如“12403”)，则输入法只需要在数据表中通过“合并”属性进行查询；如果用户输入的是部分特征码(如“12*0*”)，则输入法根据步骤2)所规定的特征码顺序进行相应属性查找。以“12*0*”为例，输入法只需要查询符合块数、孔数、三叉点数分别为1、2、0的纳西象形文字即可。

4)在数据表中查询到匹配全部特征码或者部分特征码的纳西象形文字后，显示所有符合这些特征码的纳西东巴象形文字，用户根据自己的需要选择其一。例如，用户想输入这一东巴字时，在数字键盘输入该字的特征码“12403”后，数据表中对应该特征码的只有一个，因此可以将其重复数定义为1；当用户想输入这一东巴字时，在数字键盘输入该字的特征码“33000”时，则共有4个符合该特征码的东巴文字，因此将其重复数定义为4。经过统计，有50％以上的纳西东巴象形文字其重复数为1，80％以上的东巴文字重复数不高于4，因此识别效率较高。

5)当用户选定需要输入的东巴字后，在步骤1)数据表中查询该东巴字对应的Unicode编码。如字的Unicode编码为“E904”。

6)根据Unicode编码在字库中提取对应的纳西象形文字轮廓数据并进行显示，使一个完整的纳西东巴象形文字的输入完成。字库采用专业研究人员已创建好的规范的东巴文字标准字库(naxi.ttf)，该字库可以通过互联网进行下载。

上述各步骤中，如图1所示，输入法包括以下步骤：

①首先加载已创建好的东巴文字标准字库；

②判断该东巴文字标准字库是否存在，存在则进入布局设置；反之返回步骤①；其中，布局设置主要进行输入法的界面设置；

③进行特征码输入，根据用户要显示的东巴文字，输入该东巴文字的全部特征码或者部分特征码；

④根据输入特征码的特征形成检索条件。以的全部特征码‘12403’为例，形成检索条件：合并＝12403；如果输入部分特征码，如‘12*0*'，则形成检索条件为：块数＝1，并且孔数＝2，三叉点数＝0；

⑤按照该检索条件在数据表中进行检索，得到用户希望显示的东巴文字的Unicode编码；

⑥根据步骤⑤检索到的Unicode编码在东巴文字标准字库文件中检索该字形并进行显示。

上述各实施例仅用于说明本发明，各步骤都是可以有所变化的，在本发明技术方案的基础上，凡根据本发明原理对个别步骤进行的改进和等同变换，均不应排除在本发明的保护范围之外。

Claims

1.一种基于图形拓扑特征进行识别的纳西东巴象形文字输入方法，其特征在于，所述输入方法包括以下步骤：

1)根据纳西东巴象形文字的特点，以现有东巴经典为蓝本，提取所有东巴象形文字的5类拓扑特征值：块数、孔数、端点个数、三叉点数和四叉点数，将这些特征值作为特征码存入数据表，以东巴象形文字的Unicode编码作为识别码；

2)通过数字键盘按5个特征码顺序输入需要的纳西象形文字的拓扑特征，输入全部5个拓扑特征，或选择性部分输入易识别的拓扑特征，不易识别的拓扑特征用*代替；

3)利用输入法根据输入的拓扑特征在步骤1)中的数据表内进行查找；

4)在数据表中查询到匹配全部特征码或者部分特征码的纳西象形文字后，显示所有符合这些特征码的纳西东巴象形文字，用户根据自己的需要选择其一；

5)当用户选定需要输入的东巴字后，在步骤1)数据表中查询该东巴字对应的Unicode编码；

6)根据Unicode编码在字库中提取对应的纳西象形文字轮廓数据并进行显示，至此一个完整的纳西东巴象形文字的输入完成。

2.如权利要求1所述的基于图形拓扑特征进行识别的纳西东巴象形文字输入方法，其特征在于：所述步骤1)中，将所有块数、孔数、端点个数、三叉点数和四叉点数这五种特征值大于9的统一标记为9。

3.如权利要求1所述的基于图形拓扑特征进行识别的纳西东巴象形文字输入方法，其特征在于：所述步骤2)中，所述5个特征码顺序为：块数、孔数、端点数、三叉点数、四叉点数。

4.如权利要求3所述的基于图形拓扑特征进行识别的纳西东巴象形文字输入方法，其特征在于：所述步骤3)中，如果用户输入的是全部特征码，则输入法要在数据表中通过“合并”属性进行查询；如果用户输入的是部分特征码，则输入法根据特征码顺序进行相应属性查找。

5.如权利要求1～3任一项所述的基于图形拓扑特征进行识别的纳西东巴象形文字输入方法，其特征在于：所述输入方法包括以下步骤：

①首先加载已创建好的东巴文字标准字库；

②判断该东巴文字标准字库是否存在，存在则进入布局设置；反之返回步骤①；

④根据输入特征码的特征形成检索条件：全部特征码的检索条件是在数据表中进行“合并”；部分特征码的检索条件是根据特征码顺序；

⑥根据步骤⑤检索到的Unicode编码在东巴文字标准字库文件中检索字形并进行显示。