CN104866607B

CN104866607B - 一种东巴文释读数据库建立方法

Info

Publication number: CN104866607B
Application number: CN201510303392.3A
Authority: CN
Inventors: 徐小力; 王红军; 吴国新; 王宁; 李志华
Original assignee: Beijing Information Science and Technology University
Current assignee: Suqian Xinpinhui E Commerce Co ltd
Priority date: 2015-06-04
Filing date: 2015-06-04
Publication date: 2018-01-12
Anticipated expiration: 2035-06-04
Also published as: CN104866607A

Abstract

本发明涉及一种东巴文释读数据库建立方法，包括以下步骤：对现有东巴文化资料进行采集并建立图形模板库、音频模板库和视频模板库；根据图形模板库、音频模板库和视频模板库建立释读数据库，释读数据库包括词意数据库、句意数据库和事件数据库；将词意数据库、句意数据库、事件数据库进行融合，融合后与释读知识库连接，释读知识库根据规则对三种释读数据库进行释读内容的组合，并利用推理引擎促进释读知识库与三种释读数据库的融合，完成释读数据库的建立。本发明有效解决了东巴象形文字释读数字化的难题，可以广泛在文字释读领域中应用。

Description

一种东巴文释读数据库建立方法

技术领域

本发明涉及一种文字释读数据库建立方法，特别是关于一种东巴文释读数据库建立方法。

背景技术

纳西族东巴象形文被国际学界认为是当今世界上唯一还在使用的象形文字，至今仍在被在世的东巴祭司使用，用其主持各种仪式，写信、记账等。东巴经典的核心是崇尚自然，追求人与自然和谐统一，多元文化和谐共处。东巴经典内容涉及哲学、历史、宗教、医学、天文、地理、民俗、动植物、军事、文学和艺术等领域，堪称纳西族古代社会的百科全书。

东巴文字字少意繁，文字的形、音、义都极其复杂，往往一字多形、多音、多义，也有异形同义的。书写系统与一字一个音节不同，无法单从语音角度识别，其基本表达单位不局限于语素一级，有时包括音节、句子，还需要借助记忆。自古以来，东巴经典文化的传承自古以来都是以东巴家族内部口传心授的形式进行的，目前还能释读东巴象形文字的人只是几位年逾古稀的老东巴祭司。

该象形文字具有独特的图形、发音及释读方式，东巴象形文字释读的图形数字化、语音数字化及内容数字化具有明显的复杂性、不确定性，以及东巴象形文在图形识别、语音辨识、内容释读以及形、音、义信息及其共轨信息等方面，现有的英文、汉字等识别系统及翻译系统不能适用。我国研究人员及后继人才稀少，保存机构分散，保管条件恶劣，编研工作受限，抢救手段落后，缺乏经费支持，抢救及保护已迫不容缓。

发明内容

针对上述问题，本发明的目的是提供一种东巴文释读数据库建立方法，其有效解决了东巴象形文字释读数字化的难题。

为实现上述目的，本发明采取以下技术方案：一种东巴文释读数据库建立方法，其特征在于，所述建立方法包括以下步骤：1)对现有东巴文化资料进行采集并建立图形模板库、音频模板库和视频模板库；2)根据图形模板库、音频模板库和视频模板库建立释读数据库，释读数据库包括词意数据库、句意数据库和事件数据库；词意数据库：提取现有东巴经典中的东巴象形文字作为标准字模，采用Unicode对每个字符进行编码，并利用TrueType方法建立东巴象形文标准模板库；将东巴象形文标准模板库中的文字已有释读资料进行整理录入；句意数据库包括句意编码、东巴语句、对应汉语、语句含义、分类、图形代码、音频代码和视频代码；事件数据库包括事件名称代码、事件名称、分类、事件内容、图形代码、音频代码和视频代码；其中内容分类包括：哲学、历史、宗教、医学、天文、地理、民俗、动植物、军事、文学和艺术；3)将词意数据库、句意数据库、事件数据库进行融合，融合后与释读知识库连接，释读知识库根据规则对三种释读数据库进行释读内容的组合，并利用推理引擎促进释读知识库与三种释读数据库的融合，完成释读数据库的建立。

所述步骤1)中，所述图形模板库是将通过数码照相机和扫描仪采集的东巴经典古籍资料图片进行图像处理，保存为JPG格式文件；所述图形模板库内包括唯一图形代码、标准字形、异形字；其中所述图形模板库中的图形内容有东巴文字、东巴语句和东巴事件。

所述步骤1)中，所述音频模板库是采用音频编辑软件对通过录音设备获取的高采样频率音频资源进行剪辑，保存为mp3格式文件，高采样频率为320kb/s；所述音频模版库内包括唯一音频代码、音频存储路径和纳西音标；其中音频模板库中的音频内容包括东巴文字、东巴语句和东巴事件。

所述步骤1)中，所述视频模板库是将采集到的东巴经典古籍资料的视频资源进行剪辑，加载解说音频、解说字幕或配乐，保存为wmv格式文件；所述视频模版库内包括唯一视频代码和视频存储路径；其中所述视频模板库中的视频内容也包括东巴文字、东巴语句和东巴事件。

所述步骤2)中，所述词意数据库的字段包括词意编码、图形代码、对应汉字、分类、对应英文、翻译员、中文释义、音频代码、纳西音标和视频代码。

所述步骤3)中，所述规则如下：定义S为规则集，C＝{C1、C2...Cn}为条件属性集，V＝(Vc1,Vc2...Vcn)是条件属性和决策属性的值域，D是决策属性集，(d1,d2,d3...dv)为决策值；规则为：如果输入条件属性C1为值域V中的某一值Vc1，那么决策属性D为对应的决策值d1，即输出满足Vc1时相应字段对应的属性；如果输入两个条件属性C2、C3，其中C2为值域V中的某一值Vc2，C3为值域V中的某一值Vc3，那么决策属性D为决策值d2，即输出满足Vc2、Vc3时相应字段对应的属性。

所述步骤3)中，所述推理引擎包括以下步骤：(1)匹配：当前求解问题在释读数据库中的相关事实是否与释读知识库中规则的条件部分相匹配，如果两者匹配，则启用这条规则，进入步骤(3)按规则的执行操作部分去执行；若同时存在多条规则的条件部分与求解问题相关事实相匹配，则进入步骤(2)；(2)冲突消解：预先给所有规则的条件部分设定优先级，当存在多条规则的条件部分与求解问题相关事实相匹配时，优先启用条件部分优先级较高的规则；(3)执行操作：执行启用规则的操作部分，经执行操作后，得到新的事实，将所得新事实送入当前释读数据库。

所述步骤3)中，所述词意数据库、句意数据库和事件数据库的融合方法包括以下步骤：(1)根据词意数据库编码唯一确定一个东巴文字，根据东巴文字的图形代码、音频代码、视频代码，同步检索出对应东巴文字的图形、音频及视频，呈现出东巴文字的内容与含义；(2)根据词意数据库中的对应汉字以及所属分类，模糊检索句意数据库，搜索出满足同一分类的东巴语句，即根据单独的东巴文字匹配出东巴语句，从而根据句意数据库中图形代码、音频代码、视频代码，检索出对应东巴语句的图形、音频及视频；(3)根据词意数据库中的对应汉字以及所属分类，模糊检索事件数据库，搜索出满足同一分类的东巴事件名称，即根据单独的东巴文字匹配出东巴事件，从而根据事件数据库中图形代码、音频代码、视频代码，检索出对应东巴事件的图形、音频及视频，从而实现词意数据库、句意数据库、事件数据库的融合。

本发明由于采取以上技术方案，其具有以下优点：1、由于东巴象形文字具有明显的复杂性、隐涵性、模糊性、分散性、不确定性，建立东巴文释读数据库，该数据库能够提供东巴象形文特有的词意、句意、事件等内涵，为解决东巴象形文图形识别、语音辨识、内容释读以及形音义共轨等提供技术支撑条件。2、本发明建立的数据库能够实现象形文字等复杂图形、音像以及图形、音像并轨的海量信息的智能搜索与管理，有利于对东巴象形文字模板库中的象形文字进行识别，能够实现数据库自动维护更新；同时也能够实现上述词意数据库、句意数据库、事件数据库的东巴象形文释读内容的组合与规则管理。3、本发明能够实现多种环境、多种信息类型的自适应信息归类、存储与检索，并为东巴经典古籍的数据库、知识库提供智能化运行及管理的技术支撑；同时也能够实现上述知识库的新规则的自适应植入、优化及更新。本发明可以广泛在文字释读领域中应用。

附图说明

图1是本发明的推理引擎流程示意图。

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

本发明提供一种东巴文释读数据库建立方法，其包括以下步骤：

1)对现有东巴文化资料进行采集并建立图形模板库、音频模板库和视频模板库；其中：

图形模板库是将通过数码照相机和扫描仪采集的东巴经典古籍资料图片进行图像处理，保存为JPG格式文件。图形模板库内包括图形代码(唯一)、标准字形(JPG)、异形字(JPG)；其中图形模板库中的图形内容有东巴文字、东巴语句和东巴事件。

音频模板库是采用音频编辑软件对通过录音设备获取的高采样频率音频资源进行剪辑，保存为mp3格式文件；其中高采样频率为320kb/s。音频模版库内包括音频代码(唯一)、音频存储路径(纳西读音)和纳西音标；其中音频模板库中的音频内容也包括东巴文字、东巴语句和东巴事件。

视频模板库是将采集到的东巴经典古籍资料的视频资源进行剪辑，加载解说音频、解说字幕或配乐，保存为wmv格式文件。视频模版库内包括视频代码(唯一)和视频存储路径(视频内容包括歌舞、祭祀仪式等)；其中视频模板库中的视频内容也包括东巴文字、东巴语句和东巴事件。

2)根据图形模板库、音频模板库和视频模板库建立释读数据库，释读数据库包括词意数据库、句意数据库和事件数据库；其中：

词意数据库：提取现有东巴经典(例如方国瑜先生的《纳西象形文字谱》)中的东巴象形文字作为标准字模，采用Unicode对每个字符进行编码，并利用TrueType方法建立东巴象形文标准模板库。将东巴象形文标准模板库中的文字已有释读资料进行整理录入。

词意数据库的字段包括词意编码(Unicode)(词意编码为主键)、图形代码(PId)、对应汉字(chinese)、分类(category)、对应英文(English)、翻译员(interpreter)、中文释义(Translation)、音频代码(AId)、纳西音标(NaxiP)和视频代码(VId)。例如表1所示。

表1词意数据库字段

句意数据库包括句意编码、东巴语句、对应汉语、语句含义、分类、图形代码、音频代码和视频代码。

事件数据库包括事件名称代码、事件名称、分类、事件内容、图形代码、音频代码和视频代码。其中内容分类包括：哲学、历史、宗教、医学、天文、地理、民俗、动植物、军事、文学和艺术。

3)将词意数据库、句意数据库、事件数据库进行融合，融合后与释读知识库连接，释读知识库根据规则对三种释读数据库进行释读内容的组合，并利用推理引擎促进释读知识库与三种释读数据库的融合，完成释读数据库的建立；通过知识挖掘工具对释读知识库的新规则进行自适应植入、优化及更新，增强所获取的东巴象形文释读信息的信息熵。

上述步骤1)中，在音频模板库和视频模板库内设立音频存储路径字段、视频存储路径字段。其中音频与视频存储于服务器上。只需要在音频、视频模板库中存储其路径，就能同步调用，极大的节省了数据库的存储空间，提高了效率。

上述各步骤中，每个图形代码、音频代码、视频代码都拥有唯一一个标识的代码，以利于释读数据库进行对应查找。比如根据词意数据库中的图形代码、音频代码、视频代码可以检索出对应模板库中的图片、音频、视频。方便简单。

上述步骤3)中，规则如下：定义S为规则集，C＝{C1、C2...Cn}为条件属性集，V＝(Vc1,Vc2...Vcn)是条件属性和决策属性的值域，D是决策属性集，(d1,d2,d3...dv)为决策值。

规则为：如果输入条件属性C1为值域V中的某一值Vc1，那么决策属性D为对应的决策值d1，即输出满足Vc1时相应字段对应的属性；如果输入两个条件属性C2、C3，其中C2为值域V中的某一值Vc2，C3为值域V中的某一值Vc3，那么决策属性D为决策值d2，即输出满足Vc2、Vc3时相应字段对应的属性。

例如：当输入条件属性C1为‘词意编码’属性时，通过规则进行判断，若Vc1＝E900时，则D为d1，即输出相应字段对应的属性，如Category为天象，Chinese为天等信息，如下表：

上述步骤3)中，如图1所示，推理引擎包括以下步骤：

(1)匹配：当前求解问题在释读数据库中的相关事实是否与释读知识库中规则的条件部分相匹配。如果两者匹配，则启用这条规则，进入步骤(3)按规则的执行操作部分去执行；若同时存在多条规则的条件部分与求解问题相关事实相匹配，则进入步骤(2)。

(2)冲突消解：当有一条以上规则的条件部分和相关已知事实相匹配时，就需要决定优先启用哪一条规则，此过程称为冲突的消解。预先给所有规则的条件部分设定优先级，当存在多条规则的条件部分与求解问题相关事实相匹配时，优先启用条件部分优先级较高的规则。

(3)执行操作：执行启用规则的操作部分，经执行操作后，得到新的事实，将所得新事实送入当前释读数据库。而其它规则可使用新的事实进行推理，以得到更接近问题求解的知识。

上述步骤3)中，词意数据库、句意数据库和事件数据库的融合方法包括以下步骤：

(1)根据词意数据库编码可以唯一确定一个东巴文字，根据东巴文字的图形代码、音频代码、视频代码，可以同步检索出对应东巴文字的图形、音频及视频，形象生动的呈现出东巴文字的内容与含义。

(2)根据词意数据库中的对应汉字以及所属分类，模糊检索句意数据库，搜索出满足同一分类的东巴语句，即可以根据单独的东巴文字匹配出东巴语句，从而可以根据句意数据库中图形代码、音频代码、视频代码，检索出对应东巴语句的图形、音频及视频。

(3)根据词意数据库中的对应汉字以及所属分类，模糊检索事件数据库，搜索出满足同一分类的东巴事件名称，即可以根据单独的东巴文字匹配出东巴事件，从而可以根据事件数据库中图形代码、音频代码、视频代码，检索出对应东巴事件的图形、音频及视频，从而实现词意数据库、句意数据库、事件数据库的融合。

上述各实施例仅用于说明本发明，各步骤都是可以有所变化的，在本发明技术方案的基础上，凡根据本发明原理对个别步骤进行的改进和等同变换，均不应排除在本发明的保护范围之外。

Claims

1.一种东巴文释读数据库建立方法，其特征在于，所述建立方法包括以下步骤：

1)对现有东巴文化资料进行采集并建立图形模板库、音频模板库和视频模板库；

2)根据图形模板库、音频模板库和视频模板库建立释读数据库，释读数据库包括词意数据库、句意数据库和事件数据库；

词意数据库：提取现有东巴经典中的东巴象形文字作为标准字模，采用Unicode对每个字符进行编码，并利用TrueType方法建立东巴象形文标准模板库；将东巴象形文标准模板库中的文字已有释读资料进行整理录入；

句意数据库包括句意编码、东巴语句、对应汉语、语句含义、分类、图形代码、音频代码和视频代码；

事件数据库包括事件名称代码、事件名称、分类、事件内容、图形代码、音频代码和视频代码；其中内容分类包括：哲学、历史、宗教、医学、天文、地理、民俗、动植物、军事、文学和艺术；

3)将词意数据库、句意数据库、事件数据库进行融合，融合后与释读知识库连接，释读知识库根据规则对三种释读数据库进行释读内容的组合，并利用推理引擎促进释读知识库与三种释读数据库的融合，完成释读数据库的建立；

所述推理引擎包括以下步骤：

(1)匹配：当前求解问题在释读数据库中的相关事实是否与释读知识库中规则的条件部分相匹配，如果两者匹配，则启用这条规则，进入步骤(3)按规则的执行操作部分去执行；若同时存在多条规则的条件部分与求解问题相关事实相匹配，则进入步骤(2)；

(2)冲突消解：预先给所有规则的条件部分设定优先级，当存在多条规则的条件部分与求解问题相关事实相匹配时，优先启用条件部分优先级较高的规则；

(3)执行操作：执行启用规则的操作部分，经执行操作后，得到新的事实，将所得新事实送入当前释读数据库。

2.如权利要求1所述的一种东巴文释读数据库建立方法，其特征在于：所述步骤1)中，所述图形模板库是将通过数码照相机和扫描仪采集的东巴经典古籍资料图片进行图像处理，保存为JPG格式文件；所述图形模板库内包括唯一图形代码、标准字形、异形字；其中所述图形模板库中的图形内容有东巴文字、东巴语句和东巴事件。

3.如权利要求1所述的一种东巴文释读数据库建立方法，其特征在于：所述步骤1)中，所述音频模板库是采用音频编辑软件对通过录音设备获取的高采样频率音频资源进行剪辑，保存为mp3格式文件，高采样频率为320kb/s；所述音频模版库内包括唯一音频代码、音频存储路径和纳西音标；其中音频模板库中的音频内容包括东巴文字、东巴语句和东巴事件。

4.如权利要求1所述的一种东巴文释读数据库建立方法，其特征在于：所述步骤1)中，所述视频模板库是将采集到的东巴经典古籍资料的视频资源进行剪辑，加载解说音频、解说字幕或配乐，保存为wmv格式文件；所述视频模版库内包括唯一视频代码和视频存储路径；其中所述视频模板库中的视频内容也包括东巴文字、东巴语句和东巴事件。

5.如权利要求1～4任一项所述的一种东巴文释读数据库建立方法，其特征在于：所述步骤2)中，所述词意数据库的字段包括词意编码、图形代码、对应汉字、分类、对应英文、翻译员、中文释义、音频代码、纳西音标和视频代码。

6.如权利要求1～4任一项所述的一种东巴文释读数据库建立方法，其特征在于：所述步骤3)中，所述规则如下：定义S为规则集，C＝{C1、C2...Cn}为条件属性集，V＝(Vc1,Vc2...Vcn)是条件属性和决策属性的值域，D是决策属性集，(d1,d2,d3...dv)为决策值；规则为：如果输入条件属性C1为值域V中的某一值Vc1，那么决策属性D为对应的决策值d1，即输出满足Vc1时相应字段对应的属性；如果输入两个条件属性C2、C3，其中C2为值域V中的某一值Vc2，C3为值域V中的某一值Vc3，那么决策属性D为决策值d2，即输出满足Vc2、Vc3时相应字段对应的属性。

7.如权利要求1～4任一项所述的一种东巴文释读数据库建立方法，其特征在于：所述步骤3)中，所述词意数据库、句意数据库和事件数据库的融合方法包括以下步骤：

(1)根据词意数据库编码唯一确定一个东巴文字，根据东巴文字的图形代码、音频代码、视频代码，同步检索出对应东巴文字的图形、音频及视频，呈现出东巴文字的内容与含义；

(2)根据词意数据库中的对应汉字以及所属分类，模糊检索句意数据库，搜索出满足同一分类的东巴语句，即根据单独的东巴文字匹配出东巴语句，从而根据句意数据库中图形代码、音频代码、视频代码，检索出对应东巴语句的图形、音频及视频；

(3)根据词意数据库中的对应汉字以及所属分类，模糊检索事件数据库，搜索出满足同一分类的东巴事件名称，即根据单独的东巴文字匹配出东巴事件，从而根据事件数据库中图形代码、音频代码、视频代码，检索出对应东巴事件的图形、音频及视频，从而实现词意数据库、句意数据库、事件数据库的融合。