一种东巴经典古籍传承体系数字化国际共享平台
技术领域
本发明涉及一种文字数字化共享平台,特别是关于一种东巴经典古籍传承体系数字化国际共享平台。
背景技术
纳西族是居住在亚洲喜马拉雅山以东中国西南部三江(怒江、澜沧江、金沙江)并流区域的少数民族,该民族用最古老的东巴象形文字写下了数万卷经典,其东巴象形文字是当今公认的世界上唯一还在使用的象形文字。众多学者认为东巴象形文字的文字形态比苏美尔和巴比伦的楔形文字、古埃及的圣书文字,以及中美洲的玛雅文字和中国甲骨文都更原始。2003年以该象形文字书写的纳西族东巴经典古籍被联合国教科文组织列为“世界记忆遗产”,确立了纳西东巴文化在世界及中国的文化发展史上占有重要独特的地位。
国际学界认为:对东巴文化的深入研究会进一步揭示世界古代人类文化之谜。东巴学术研究虽然是世界性的研究热点,而且各国收藏机构也都迫切地想了解自己收藏的经书的内容,但东巴经典的学术研究始终处于分散的型态;同时由于能够释读东巴古籍的老东巴祭司大都已年逾古稀,为了实现东巴经典世界范围的信息共享及传播,迫切需要建立东巴经典古籍传承体系数字化国际共享平台。
发明内容
针对上述问题,本发明的目的是提供一种东巴经典古籍传承体系数字化国际共享平台,该平台基于现代信息化手段进行东巴经典古籍的资源共享,使得众多对纳西东巴文化关注的人群能够看到和使用世界各地收藏的东巴经典,能够为世界范围系统研究东巴经典提供资源及条件。同时,该平台的数字化网络化手段有利于东巴经典古籍的抢救、保护与传承。
为实现上述目的,本发明采取以下技术方案:一种东巴经典古籍传承体系数字化国际共享平台,其特征在于:它包括收藏机构、东巴经典古籍象形文释读库、世界记忆工程数据库、管理平台模块和信息传播模块;所述收藏机构将收藏到的各种东巴经典古籍信息传输至所述东巴经典古籍象形文释读库,所述东巴经典古籍象形文释读库与所述世界记忆工程数据库进行信息交互;所述东巴经典古籍象形文释读库由所述管理平台模块进行登录与身份管理、使用权限管理、存储管理、安全管理、查询管理;所述东巴经典古籍象形文释读库将处理后的东巴象形文字经所述信息传播模块传输至外界。
在一个优选的实施例中,所述东巴经典古籍象形文释读库的建立方法如下:1)对现有东巴经典古籍资料进行采集并建立东巴经典古籍象形文释读资料库,该释读资料库包括图形模板库、音频模板库和视频模板库;所述图形模板库内包括唯一图形代码、标准字形、异形字;其中图形模板库中的图形内容有东巴象形文字、东巴语句和东巴事件;所述音频模板库内包括唯一音频代码、音频存储路径和纳西音标;其中音频模板库中的音频内容也包括东巴文字、东巴语句和东巴事件;所述视频模板库内包括唯一视频代码和视频存储路径;其中视频模板库中的视频内容也包括东巴文字、东巴语句和东巴事件;2)根据东巴经典古籍象形文释读资料库建立东巴经典古籍象形文释读数据库,该释读数据库包括词意数据库、句意数据库和事件数据库;所述词意数据库:提取现有东巴经典中的东巴象形文字作为标准字模,采用Unicode对每个字符进行编码,并利用现有TrueType方法建立东巴象形文标准模板库;将东巴象形文标准模板库中的文字已有释读资料进行整理录入;所述词意数据库的字段包括词意编码Unicode、图形代码、对应汉字、分类、对应英文、翻译员、中文释义、音频代码、纳西音标和视频代码;所述句意数据库包括句意编码、东巴语句、对应汉语、语句含义、分类、图形代码、音频代码和视频代码;所述事件数据库包括事件名称代码、事件名称、分类、事件内容、图形代码、音频代码和视频代码,其中内容分类包括:哲学、历史、宗教、医学、天文、地理、民俗、动植物、军事、文学和艺术;3)建立东巴经典古籍释读知识库对释读数据库进行管理:释读知识库根据释读规则对三种释读数据库进行释读内容的组合,并利用推理引擎促进释读数据库中词意数据库、句意数据库、事件数据库之间的融合;4)建立东巴经典古籍释读优化库,通过知识挖掘工具对释读数据库、释读知识库的内容进行频繁模式挖掘以及聚类分析,为释读数据库、释读知识库的释读规则优化及更新提供支持;5)东巴经典古籍象形文释读资料库将其东巴古籍信息传输至东巴经典古籍象形文文献库,该文献库中预置有数字化国际共享平台所需的数字化编目格式和规则,根据古籍编目形式对东巴经典古籍象形文释读资料库中的东巴经典古籍进行分类、整理,完成东巴经典古籍的数字化编目。
在一个优选的实施例中,所述步骤3)中,所述释读规则如下:3.1)定义S为规则集,C={C1、C2...Cn}为条件属性集,V=(Vc1,Vc2...Vcn)是条件属性和决策属性的值域,D是决策属性集,(d1,d2,d3...dv)为决策值;3.2)规则为:如果输入条件属性C1为值域V中的某一值Vc1,那么决策属性D为对应的决策值d1,即输出满足Vc1时相应字段对应的属性;如果输入两个条件属性C2、C3,其中C2为值域V中的某一值Vc2,C3为值域V中的某一值Vc3,那么决策属性D为决策值d2,即输出满足Vc2、Vc3时相应字段对应的属性。
在一个优选的实施例中,所述步骤3)中,所述推理引擎过程如下:①匹配:当前求解问题在释读数据库中的相关事实是否与释读知识库中规则的条件部分相匹配,如果两者匹配,则启用释读知识库中的规则,进入步骤③按规则的执行操作部分去执行;若同时存在多条规则的条件部分与求解问题相关事实相匹配,则进入步骤②;②冲突消解:预先给所有规则的条件部分设定优先级,当存在多条规则的条件部分与求解问题相关事实相匹配时,优先启用条件部分优先级较高的规则;③执行操作:执行启用规则的操作部分,经执行操作后,得到新的事实,将所得新事实送入当前释读数据库。
在一个优选的实施例中,所述步骤3)中,所述词意数据库、句意数据库和事件数据库的融合方法包括以下步骤:①根据词意数据库编码唯一确定一个东巴文字,根据东巴文字的图形代码、音频代码、视频代码,同步检索出对应东巴文字的图形、音频及视频,呈现出东巴文字的内容与含义;②根据词意数据库中的对应汉字以及所属分类,模糊检索句意数据库,搜索出满足同一分类的东巴语句,即根据单独的东巴文字匹配出东巴语句,从而根据句意数据库中图形代码、音频代码、视频代码,检索出对应东巴语句的图形、音频及视频;③根据词意数据库中的对应汉字以及所属分类,模糊检索事件数据库,搜索出满足同一分类的东巴事件名称,即根据单独的东巴文字匹配出东巴事件,从而根据事件数据库中图形代码、音频代码、视频代码,检索出对应东巴事件的图形、音频及视频,从而实现词意数据库、句意数据库、事件数据库的融合。
在一个优选的实施例中,所述步骤4)中,所述频繁模式挖掘过程为:对释读数据库中的词意数据库、句意数据库、事件数据库进行频繁模式挖掘,得到词意数据库、句意数据库、事件数据库中频繁使用的词意组合、句意组合;对释读知识库中的规则进行频繁模式挖掘,归纳出频繁使用的条件属性与决策值的组合;将频繁项输出给释读知识库,在对东巴象形文进行释读过程中提供与当前释语句最匹配的词意组合、句意组合,作为释读选项供选择;采用FP-growth算法,频繁模式挖掘以词意数据库为例:①扫描词意数据库,找出频繁使用的词意以及使用次数,做出频繁项的列表L,按照使用次数递减排序;②再次扫描数据库,由每个词意不断构建FP-Tree:将FP-Tree的根节点设为null;把每个词意项逐个添加到FP-Tree的分枝上去;③做出头结点表,将所有相同的项链接起来;④根据头结点表找出以某个词意为结尾的路径,即词意的后缀模式;⑤词意的前缀路径构成词意的条件模式基;⑥根据条件模式基构建词意的条件FP-树,得到条件频繁项集;⑦条件频繁项集和词意的后缀模式合并,得到词意的频繁项集。
在一个优选的实施例中,所述步骤4)中,所述聚类分析方法如下:①将事件数据库中事件的个数作为聚类分析的类别数,将事件编码、事件名称、分类、事件内容、图形代码信息作为源数据,采用模糊C均值方法计算事件的聚类中心;②将释读过程中的连续两个词意对应的词意数据库中的词意编码、图形代码、对应汉字、分类、中文释义信息作为样本,计算样本隶属于某个聚类中心的隶属度;③将具有最大数值的隶属度所对应的事件作为词意的隐含事件,将词意与事件之间的关联关系输出给释读知识库,改进释读知识库中的融合方法。
在一个优选的实施例中,所述世界记忆工程数据库包括失去的记忆数据库、濒危的记忆数据库和目前的活动数据库。
在一个优选的实施例中,所述信息传播模块采用网站、虚拟现实、流媒体、语音、文本传播方式向外界输出,实现异地的文本、图形、二维/三维动画、影像和声音多媒体的播放,音形义信息及其共轨信息的传播。
本发明由于采取以上技术方案,其具有以下优点:1、本发明能够提供一种基于现代信息化技术的抢救手段,实现东巴经典的数字化技术抢救及网络化技术传播。2、本发明有利于实现东巴经典的全球共享与信息交流,并具有独特文化保护价值和国际学术交流价值,对世界级文物抢救与回归、人类及中华民族文化传承与传播具有深刻社会意义及深远历史意义。
附图说明
图1是本发明的整体结构示意图。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
如图1所示,本发明提供一种东巴经典古籍传承体系数字化国际共享平台,其包括收藏机构、东巴经典古籍象形文释读库、世界记忆工程数据库、管理平台模块和信息传播模块。收藏机构将收藏到的各种东巴经典古籍信息传输至东巴经典古籍象形文释读库,东巴经典古籍象形文释读库与世界记忆工程数据库进行信息交互;东巴经典古籍象形文释读库由管理平台模块进行登录与身份管理、使用权限管理、存储管理、安全管理、查询管理、访问数量统计等。东巴经典古籍象形文释读库将处理后的东巴象形文字经信息传播模块传输至外界。
上述实施例中,东巴经典古籍象形文释读库的建立方法如下:
1)对现有东巴经典古籍资料进行采集并建立东巴经典古籍象形文释读资料库,该释读资料库包括图形模板库、音频模板库和视频模板库。
图形模板库是将通过非接触式古籍扫描仪和专业数码照相机采集的东巴经典古籍资料图片进行数字化录入及图像处理,保存为JPG格式文件。图形模板库内包括唯一图形代码、标准字形(JPG)、异形字(JPG);其中图形模板库中的图形内容有东巴象形文字、东巴语句和东巴事件。
音频模板库是采用音频编辑软件对通过数字录音设备获取的高采样数字频率音频资源进行剪辑,保存为mp3格式文件;其中高采样频率为320kb/s。音频模版库内包括唯一音频代码、音频存储路径(纳西读音)和纳西音标;其中音频模板库中的音频内容也包括东巴文字、东巴语句和东巴事件。
视频模板库是将采集到的东巴经典古籍资料的视频资源进行剪辑,加载解说音频、解说字幕或配乐,保存为wmv格式文件。视频模版库内包括唯一视频代码和视频存储路径(视频内容包括歌舞、祭祀仪式等);其中视频模板库中的视频内容也包括东巴文字、东巴语句和东巴事件。
2)根据东巴经典古籍象形文释读资料库建立东巴经典古籍象形文释读数据库,该释读数据库包括词意数据库、句意数据库和事件数据库。
词意数据库:提取现有东巴经典(例如方国瑜先生的《纳西象形文字谱》)中的东巴象形文字作为标准字模,采用Unicode对每个字符进行编码,并利用现有TrueType方法建立东巴象形文标准模板库;将东巴象形文标准模板库中的文字已有释读资料进行整理录入。
词意数据库的字段包括词意编码(Unicode)(词意编码为主键)、图形代码(PId)、对应汉字(chinese)、分类(category)、对应英文(English)、翻译员(interpreter)、中文释义(Translation)、音频代码(AId)、纳西音标(NaxiP)和视频代码(VId)。
句意数据库包括句意编码、东巴语句、对应汉语、语句含义、分类、图形代码、音频代码和视频代码。
事件数据库包括事件名称代码、事件名称、分类、事件内容、图形代码、音频代码和视频代码。其中内容分类包括:哲学、历史、宗教、医学、天文、地理、民俗、动植物、军事、文学和艺术。
3)建立东巴经典古籍象形文释读知识库对释读数据库进行管理:释读知识库根据释读规则对三种释读数据库进行释读内容的组合,并利用推理引擎促进释读数据库中词意数据库、句意数据库、事件数据库之间的融合。
3.1)释读规则如下:
3.1.1)定义S为规则集,C={C1、C2...Cn}为条件属性集,V=(Vc1,Vc2...Vcn)是条件属性和决策属性的值域,D是决策属性集,(d1,d2,d3...dv)为决策值。
3.1.2)规则为:如果输入条件属性C1为值域V中的某一值Vc1,那么决策属性D为对应的决策值d1,即输出满足Vc1时相应字段对应的属性;如果输入两个条件属性C2、C3,其中C2为值域V中的某一值Vc2,C3为值域V中的某一值Vc3,那么决策属性D为决策值d2,即输出满足Vc2、Vc3时相应字段对应的属性。
例如:当输入条件属性C1为‘词意编码’属性时,通过规则进行判断,若Vc1=E900时,则D为d1,即输出相应字段对应的属性,如Category为天象,Chinese为天等信息,如表1所示。
表1
3.2)推理引擎过程如下:
①匹配:当前求解问题在释读数据库中的相关事实是否与释读知识库中规则的条件部分相匹配,如果两者匹配,则启用释读知识库中的规则,进入步骤③按规则的执行操作部分去执行;若同时存在多条规则的条件部分与求解问题相关事实相匹配,则进入步骤②;
②冲突消解:预先给所有规则的条件部分设定优先级,即值域V中的优先级为:Vc1>Vc2>…>Vcn,当存在多条规则的条件部分与求解问题相关事实相匹配时,优先启用条件部分优先级较高的规则;
③执行操作:执行启用规则的操作部分,经执行操作后,得到新的事实,将所得新事实送入当前释读数据库。
3.3)词意数据库、句意数据库和事件数据库的融合方法包括以下步骤:
①根据词意数据库编码唯一确定一个东巴文字,根据东巴文字的图形代码、音频代码、视频代码,同步检索出对应东巴文字的图形、音频及视频,呈现出东巴文字的内容与含义;
②根据词意数据库中的对应汉字以及所属分类,模糊检索句意数据库,搜索出满足同一分类的东巴语句,即根据单独的东巴文字匹配出东巴语句,从而根据句意数据库中图形代码、音频代码、视频代码,检索出对应东巴语句的图形、音频及视频;
③根据词意数据库中的对应汉字以及所属分类,模糊检索事件数据库,搜索出满足同一分类的东巴事件名称,即根据单独的东巴文字匹配出东巴事件,从而根据事件数据库中图形代码、音频代码、视频代码,检索出对应东巴事件的图形、音频及视频,从而实现词意数据库、句意数据库、事件数据库的融合。
4)建立东巴经典古籍释读优化库,通过知识挖掘工具对释读数据库、释读知识库的内容进行频繁模式挖掘以及聚类分析,为释读数据库、释读知识库的释读规则优化及更新提供支持。
4.1)频繁模式挖掘过程为:对释读数据库中的词意数据库、句意数据库、事件数据库进行频繁模式挖掘,得到词意数据库、句意数据库、事件数据库中频繁使用的词意组合、句意组合;对释读知识库中的规则进行频繁模式挖掘,归纳出频繁使用的条件属性与决策值的组合。将频繁项输出给释读知识库,在对东巴象形文进行释读过程中提供与当前释语句最匹配的词意组合、句意组合,作为释读选项供选择。
采用FP-growth算法,以词意数据库为例阐述频繁模式挖掘:
①扫描词意数据库,找出频繁使用的词意以及使用次数,做出频繁项的列表L,按照使用次数递减排序。
②再次扫描数据库,由每个词意不断构建FP-Tree:将FP-Tree的根节点设为null;把每个词意项逐个添加到FP-Tree的分枝上。
③做出头结点表,将所有相同的项链接起来。
④根据头结点表找出以某个词意为结尾的路径,即词意的后缀模式。
⑤词意的前缀路径构成词意的条件模式基。
⑥根据条件模式基构建词意的条件FP-树,得到条件频繁项集。
⑦条件频繁项集和词意的后缀模式合并,得到词意的频繁项集。
4.2)聚类分析方法如下:
①将事件数据库中事件的个数作为聚类分析的类别数,将事件编码、事件名称、分类、事件内容、图形代码等信息作为源数据,采用模糊C均值方法计算事件的聚类中心。
②将释读过程中的连续两个词意对应的词意数据库中的词意编码、图形代码、对应汉字、分类、中文释义等信息作为样本,计算样本隶属于某个聚类中心的隶属度。
③将具有最大数值的隶属度所对应的事件作为词意的隐含事件,将词意与事件之间的关联关系输出给释读知识库,改进释读知识库中的融合方法。
5)东巴经典古籍象形文释读资料库将其东巴古籍信息传输至东巴经典古籍象形文文献库,该文献库中预置有数字化国际共享平台所需的数字化编目格式和规则,根据古籍编目形式对东巴经典古籍象形文释读资料库中的东巴经典古籍进行分类、整理,完成东巴经典古籍的数字化编目。
上述各实施例中,收藏机构将收藏到的各种东巴经典古籍信息传输至东巴经典古籍象形文释读库,实现与世界各收藏机构互联,汇集世界上拥有东巴经典藏品的著名图书馆、博物馆、研究所和院校收藏的相关资料信息。
收藏机构包括德国国家图书馆、哈佛大学燕京图书馆、华盛顿的美国国会图书馆、法国国家图书馆、法国巴黎语言文化大学图书馆、法国远东学院、法国吉美特博物馆、法国原始文化博物馆、英国国家图书馆、英国曼彻斯特大学图书馆,以及云南省博物馆、丽江东巴文化研究院、东巴文化博物院、北京东巴文化艺术发展促进会以及在大量田野调研中获得的资料。
上述各实施例中,世界记忆工程数据库包括失去的记忆数据库、濒危的记忆数据库和目前的活动数据库。在联合国教科文组织支持下,东巴经典古籍象形文释读库与世界记忆工程数据库中的三个数据库连接进行信息交互,对现有资源进行整合,建立典籍共享查询规范,实现资源的互联互通。
上述各实施例中,信息传播模块采用网站、虚拟现实、流媒体、语音、文本等多种传播方式向外界输出,实现异地的文本、图形、二维/三维动画、影像和声音等多媒体的播放,音形义信息及其共轨信息的传播,展示纳西族东巴祭司对某册特定经典逐字逐句吟诵的高清晰度影像及音频信息。
上述各实施例仅用于说明本发明,各个步骤都是可以有所变化的,在本发明技术方案的基础上,凡根据本发明原理对个别步骤进行的改进和等同变换,均不应排除在本发明的保护范围之外。