CN104866607B - 一种东巴文释读数据库建立方法 - Google Patents

一种东巴文释读数据库建立方法 Download PDF

Info

Publication number
CN104866607B
CN104866607B CN201510303392.3A CN201510303392A CN104866607B CN 104866607 B CN104866607 B CN 104866607B CN 201510303392 A CN201510303392 A CN 201510303392A CN 104866607 B CN104866607 B CN 104866607B
Authority
CN
China
Prior art keywords
database
explain
dongba
textual research
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510303392.3A
Other languages
English (en)
Other versions
CN104866607A (zh
Inventor
徐小力
王红军
吴国新
王宁
李志华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suqian Xinpinhui E Commerce Co ltd
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN201510303392.3A priority Critical patent/CN104866607B/zh
Publication of CN104866607A publication Critical patent/CN104866607A/zh
Application granted granted Critical
Publication of CN104866607B publication Critical patent/CN104866607B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种东巴文释读数据库建立方法,包括以下步骤:对现有东巴文化资料进行采集并建立图形模板库、音频模板库和视频模板库;根据图形模板库、音频模板库和视频模板库建立释读数据库,释读数据库包括词意数据库、句意数据库和事件数据库;将词意数据库、句意数据库、事件数据库进行融合,融合后与释读知识库连接,释读知识库根据规则对三种释读数据库进行释读内容的组合,并利用推理引擎促进释读知识库与三种释读数据库的融合,完成释读数据库的建立。本发明有效解决了东巴象形文字释读数字化的难题,可以广泛在文字释读领域中应用。

Description

一种东巴文释读数据库建立方法
技术领域
本发明涉及一种文字释读数据库建立方法,特别是关于一种东巴文释读数据库建立方法。
背景技术
纳西族东巴象形文被国际学界认为是当今世界上唯一还在使用的象形文字,至今仍在被在世的东巴祭司使用,用其主持各种仪式,写信、记账等。东巴经典的核心是崇尚自然,追求人与自然和谐统一,多元文化和谐共处。东巴经典内容涉及哲学、历史、宗教、医学、天文、地理、民俗、动植物、军事、文学和艺术等领域,堪称纳西族古代社会的百科全书。
东巴文字字少意繁,文字的形、音、义都极其复杂,往往一字多形、多音、多义,也有异形同义的。书写系统与一字一个音节不同,无法单从语音角度识别,其基本表达单位不局限于语素一级,有时包括音节、句子,还需要借助记忆。自古以来,东巴经典文化的传承自古以来都是以东巴家族内部口传心授的形式进行的,目前还能释读东巴象形文字的人只是几位年逾古稀的老东巴祭司。
该象形文字具有独特的图形、发音及释读方式,东巴象形文字释读的图形数字化、语音数字化及内容数字化具有明显的复杂性、不确定性,以及东巴象形文在图形识别、语音辨识、内容释读以及形、音、义信息及其共轨信息等方面,现有的英文、汉字等识别系统及翻译系统不能适用。我国研究人员及后继人才稀少,保存机构分散,保管条件恶劣,编研工作受限,抢救手段落后,缺乏经费支持,抢救及保护已迫不容缓。
发明内容
针对上述问题,本发明的目的是提供一种东巴文释读数据库建立方法,其有效解决了东巴象形文字释读数字化的难题。
为实现上述目的,本发明采取以下技术方案:一种东巴文释读数据库建立方法,其特征在于,所述建立方法包括以下步骤:1)对现有东巴文化资料进行采集并建立图形模板库、音频模板库和视频模板库;2)根据图形模板库、音频模板库和视频模板库建立释读数据库,释读数据库包括词意数据库、句意数据库和事件数据库;词意数据库:提取现有东巴经典中的东巴象形文字作为标准字模,采用Unicode对每个字符进行编码,并利用TrueType方法建立东巴象形文标准模板库;将东巴象形文标准模板库中的文字已有释读资料进行整理录入;句意数据库包括句意编码、东巴语句、对应汉语、语句含义、分类、图形代码、音频代码和视频代码;事件数据库包括事件名称代码、事件名称、分类、事件内容、图形代码、音频代码和视频代码;其中内容分类包括:哲学、历史、宗教、医学、天文、地理、民俗、动植物、军事、文学和艺术;3)将词意数据库、句意数据库、事件数据库进行融合,融合后与释读知识库连接,释读知识库根据规则对三种释读数据库进行释读内容的组合,并利用推理引擎促进释读知识库与三种释读数据库的融合,完成释读数据库的建立。
所述步骤1)中,所述图形模板库是将通过数码照相机和扫描仪采集的东巴经典古籍资料图片进行图像处理,保存为JPG格式文件;所述图形模板库内包括唯一图形代码、标准字形、异形字;其中所述图形模板库中的图形内容有东巴文字、东巴语句和东巴事件。
所述步骤1)中,所述音频模板库是采用音频编辑软件对通过录音设备获取的高采样频率音频资源进行剪辑,保存为mp3格式文件,高采样频率为320kb/s;所述音频模版库内包括唯一音频代码、音频存储路径和纳西音标;其中音频模板库中的音频内容包括东巴文字、东巴语句和东巴事件。
所述步骤1)中,所述视频模板库是将采集到的东巴经典古籍资料的视频资源进行剪辑,加载解说音频、解说字幕或配乐,保存为wmv格式文件;所述视频模版库内包括唯一视频代码和视频存储路径;其中所述视频模板库中的视频内容也包括东巴文字、东巴语句和东巴事件。
所述步骤2)中,所述词意数据库的字段包括词意编码、图形代码、对应汉字、分类、对应英文、翻译员、中文释义、音频代码、纳西音标和视频代码。
所述步骤3)中,所述规则如下:定义S为规则集,C={C1、C2...Cn}为条件属性集,V=(Vc1,Vc2...Vcn)是条件属性和决策属性的值域,D是决策属性集,(d1,d2,d3...dv)为决策值;规则为:如果输入条件属性C1为值域V中的某一值Vc1,那么决策属性D为对应的决策值d1,即输出满足Vc1时相应字段对应的属性;如果输入两个条件属性C2、C3,其中C2为值域V中的某一值Vc2,C3为值域V中的某一值Vc3,那么决策属性D为决策值d2,即输出满足Vc2、Vc3时相应字段对应的属性。
所述步骤3)中,所述推理引擎包括以下步骤:(1)匹配:当前求解问题在释读数据库中的相关事实是否与释读知识库中规则的条件部分相匹配,如果两者匹配,则启用这条规则,进入步骤(3)按规则的执行操作部分去执行;若同时存在多条规则的条件部分与求解问题相关事实相匹配,则进入步骤(2);(2)冲突消解:预先给所有规则的条件部分设定优先级,当存在多条规则的条件部分与求解问题相关事实相匹配时,优先启用条件部分优先级较高的规则;(3)执行操作:执行启用规则的操作部分,经执行操作后,得到新的事实,将所得新事实送入当前释读数据库。
所述步骤3)中,所述词意数据库、句意数据库和事件数据库的融合方法包括以下步骤:(1)根据词意数据库编码唯一确定一个东巴文字,根据东巴文字的图形代码、音频代码、视频代码,同步检索出对应东巴文字的图形、音频及视频,呈现出东巴文字的内容与含义;(2)根据词意数据库中的对应汉字以及所属分类,模糊检索句意数据库,搜索出满足同一分类的东巴语句,即根据单独的东巴文字匹配出东巴语句,从而根据句意数据库中图形代码、音频代码、视频代码,检索出对应东巴语句的图形、音频及视频;(3)根据词意数据库中的对应汉字以及所属分类,模糊检索事件数据库,搜索出满足同一分类的东巴事件名称,即根据单独的东巴文字匹配出东巴事件,从而根据事件数据库中图形代码、音频代码、视频代码,检索出对应东巴事件的图形、音频及视频,从而实现词意数据库、句意数据库、事件数据库的融合。
本发明由于采取以上技术方案,其具有以下优点:1、由于东巴象形文字具有明显的复杂性、隐涵性、模糊性、分散性、不确定性,建立东巴文释读数据库,该数据库能够提供东巴象形文特有的词意、句意、事件等内涵,为解决东巴象形文图形识别、语音辨识、内容释读以及形音义共轨等提供技术支撑条件。2、本发明建立的数据库能够实现象形文字等复杂图形、音像以及图形、音像并轨的海量信息的智能搜索与管理,有利于对东巴象形文字模板库中的象形文字进行识别,能够实现数据库自动维护更新;同时也能够实现上述词意数据库、句意数据库、事件数据库的东巴象形文释读内容的组合与规则管理。3、本发明能够实现多种环境、多种信息类型的自适应信息归类、存储与检索,并为东巴经典古籍的数据库、知识库提供智能化运行及管理的技术支撑;同时也能够实现上述知识库的新规则的自适应植入、优化及更新。本发明可以广泛在文字释读领域中应用。
附图说明
图1是本发明的推理引擎流程示意图。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
本发明提供一种东巴文释读数据库建立方法,其包括以下步骤:
1)对现有东巴文化资料进行采集并建立图形模板库、音频模板库和视频模板库;其中:
图形模板库是将通过数码照相机和扫描仪采集的东巴经典古籍资料图片进行图像处理,保存为JPG格式文件。图形模板库内包括图形代码(唯一)、标准字形(JPG)、异形字(JPG);其中图形模板库中的图形内容有东巴文字、东巴语句和东巴事件。
音频模板库是采用音频编辑软件对通过录音设备获取的高采样频率音频资源进行剪辑,保存为mp3格式文件;其中高采样频率为320kb/s。音频模版库内包括音频代码(唯一)、音频存储路径(纳西读音)和纳西音标;其中音频模板库中的音频内容也包括东巴文字、东巴语句和东巴事件。
视频模板库是将采集到的东巴经典古籍资料的视频资源进行剪辑,加载解说音频、解说字幕或配乐,保存为wmv格式文件。视频模版库内包括视频代码(唯一)和视频存储路径(视频内容包括歌舞、祭祀仪式等);其中视频模板库中的视频内容也包括东巴文字、东巴语句和东巴事件。
2)根据图形模板库、音频模板库和视频模板库建立释读数据库,释读数据库包括词意数据库、句意数据库和事件数据库;其中:
词意数据库:提取现有东巴经典(例如方国瑜先生的《纳西象形文字谱》)中的东巴象形文字作为标准字模,采用Unicode对每个字符进行编码,并利用TrueType方法建立东巴象形文标准模板库。将东巴象形文标准模板库中的文字已有释读资料进行整理录入。
词意数据库的字段包括词意编码(Unicode)(词意编码为主键)、图形代码(PId)、对应汉字(chinese)、分类(category)、对应英文(English)、翻译员(interpreter)、中文释义(Translation)、音频代码(AId)、纳西音标(NaxiP)和视频代码(VId)。例如表1所示。
表1词意数据库字段
句意数据库包括句意编码、东巴语句、对应汉语、语句含义、分类、图形代码、音频代码和视频代码。
事件数据库包括事件名称代码、事件名称、分类、事件内容、图形代码、音频代码和视频代码。其中内容分类包括:哲学、历史、宗教、医学、天文、地理、民俗、动植物、军事、文学和艺术。
3)将词意数据库、句意数据库、事件数据库进行融合,融合后与释读知识库连接,释读知识库根据规则对三种释读数据库进行释读内容的组合,并利用推理引擎促进释读知识库与三种释读数据库的融合,完成释读数据库的建立;通过知识挖掘工具对释读知识库的新规则进行自适应植入、优化及更新,增强所获取的东巴象形文释读信息的信息熵。
上述步骤1)中,在音频模板库和视频模板库内设立音频存储路径字段、视频存储路径字段。其中音频与视频存储于服务器上。只需要在音频、视频模板库中存储其路径,就能同步调用,极大的节省了数据库的存储空间,提高了效率。
上述各步骤中,每个图形代码、音频代码、视频代码都拥有唯一一个标识的代码,以利于释读数据库进行对应查找。比如根据词意数据库中的图形代码、音频代码、视频代码可以检索出对应模板库中的图片、音频、视频。方便简单。
上述步骤3)中,规则如下:定义S为规则集,C={C1、C2...Cn}为条件属性集,V=(Vc1,Vc2...Vcn)是条件属性和决策属性的值域,D是决策属性集,(d1,d2,d3...dv)为决策值。
规则为:如果输入条件属性C1为值域V中的某一值Vc1,那么决策属性D为对应的决策值d1,即输出满足Vc1时相应字段对应的属性;如果输入两个条件属性C2、C3,其中C2为值域V中的某一值Vc2,C3为值域V中的某一值Vc3,那么决策属性D为决策值d2,即输出满足Vc2、Vc3时相应字段对应的属性。
例如:当输入条件属性C1为‘词意编码’属性时,通过规则进行判断,若Vc1=E900时,则D为d1,即输出相应字段对应的属性,如Category为天象,Chinese为天等信息,如下表:
上述步骤3)中,如图1所示,推理引擎包括以下步骤:
(1)匹配:当前求解问题在释读数据库中的相关事实是否与释读知识库中规则的条件部分相匹配。如果两者匹配,则启用这条规则,进入步骤(3)按规则的执行操作部分去执行;若同时存在多条规则的条件部分与求解问题相关事实相匹配,则进入步骤(2)。
(2)冲突消解:当有一条以上规则的条件部分和相关已知事实相匹配时,就需要决定优先启用哪一条规则,此过程称为冲突的消解。预先给所有规则的条件部分设定优先级,当存在多条规则的条件部分与求解问题相关事实相匹配时,优先启用条件部分优先级较高的规则。
(3)执行操作:执行启用规则的操作部分,经执行操作后,得到新的事实,将所得新事实送入当前释读数据库。而其它规则可使用新的事实进行推理,以得到更接近问题求解的知识。
上述步骤3)中,词意数据库、句意数据库和事件数据库的融合方法包括以下步骤:
(1)根据词意数据库编码可以唯一确定一个东巴文字,根据东巴文字的图形代码、音频代码、视频代码,可以同步检索出对应东巴文字的图形、音频及视频,形象生动的呈现出东巴文字的内容与含义。
(2)根据词意数据库中的对应汉字以及所属分类,模糊检索句意数据库,搜索出满足同一分类的东巴语句,即可以根据单独的东巴文字匹配出东巴语句,从而可以根据句意数据库中图形代码、音频代码、视频代码,检索出对应东巴语句的图形、音频及视频。
(3)根据词意数据库中的对应汉字以及所属分类,模糊检索事件数据库,搜索出满足同一分类的东巴事件名称,即可以根据单独的东巴文字匹配出东巴事件,从而可以根据事件数据库中图形代码、音频代码、视频代码,检索出对应东巴事件的图形、音频及视频,从而实现词意数据库、句意数据库、事件数据库的融合。
上述各实施例仅用于说明本发明,各步骤都是可以有所变化的,在本发明技术方案的基础上,凡根据本发明原理对个别步骤进行的改进和等同变换,均不应排除在本发明的保护范围之外。

Claims (7)

1.一种东巴文释读数据库建立方法,其特征在于,所述建立方法包括以下步骤:
1)对现有东巴文化资料进行采集并建立图形模板库、音频模板库和视频模板库;
2)根据图形模板库、音频模板库和视频模板库建立释读数据库,释读数据库包括词意数据库、句意数据库和事件数据库;
词意数据库:提取现有东巴经典中的东巴象形文字作为标准字模,采用Unicode对每个字符进行编码,并利用TrueType方法建立东巴象形文标准模板库;将东巴象形文标准模板库中的文字已有释读资料进行整理录入;
句意数据库包括句意编码、东巴语句、对应汉语、语句含义、分类、图形代码、音频代码和视频代码;
事件数据库包括事件名称代码、事件名称、分类、事件内容、图形代码、音频代码和视频代码;其中内容分类包括:哲学、历史、宗教、医学、天文、地理、民俗、动植物、军事、文学和艺术;
3)将词意数据库、句意数据库、事件数据库进行融合,融合后与释读知识库连接,释读知识库根据规则对三种释读数据库进行释读内容的组合,并利用推理引擎促进释读知识库与三种释读数据库的融合,完成释读数据库的建立;
所述推理引擎包括以下步骤:
(1)匹配:当前求解问题在释读数据库中的相关事实是否与释读知识库中规则的条件部分相匹配,如果两者匹配,则启用这条规则,进入步骤(3)按规则的执行操作部分去执行;若同时存在多条规则的条件部分与求解问题相关事实相匹配,则进入步骤(2);
(2)冲突消解:预先给所有规则的条件部分设定优先级,当存在多条规则的条件部分与求解问题相关事实相匹配时,优先启用条件部分优先级较高的规则;
(3)执行操作:执行启用规则的操作部分,经执行操作后,得到新的事实,将所得新事实送入当前释读数据库。
2.如权利要求1所述的一种东巴文释读数据库建立方法,其特征在于:所述步骤1)中,所述图形模板库是将通过数码照相机和扫描仪采集的东巴经典古籍资料图片进行图像处理,保存为JPG格式文件;所述图形模板库内包括唯一图形代码、标准字形、异形字;其中所述图形模板库中的图形内容有东巴文字、东巴语句和东巴事件。
3.如权利要求1所述的一种东巴文释读数据库建立方法,其特征在于:所述步骤1)中,所述音频模板库是采用音频编辑软件对通过录音设备获取的高采样频率音频资源进行剪辑,保存为mp3格式文件,高采样频率为320kb/s;所述音频模版库内包括唯一音频代码、音频存储路径和纳西音标;其中音频模板库中的音频内容包括东巴文字、东巴语句和东巴事件。
4.如权利要求1所述的一种东巴文释读数据库建立方法,其特征在于:所述步骤1)中,所述视频模板库是将采集到的东巴经典古籍资料的视频资源进行剪辑,加载解说音频、解说字幕或配乐,保存为wmv格式文件;所述视频模版库内包括唯一视频代码和视频存储路径;其中所述视频模板库中的视频内容也包括东巴文字、东巴语句和东巴事件。
5.如权利要求1~4任一项所述的一种东巴文释读数据库建立方法,其特征在于:所述步骤2)中,所述词意数据库的字段包括词意编码、图形代码、对应汉字、分类、对应英文、翻译员、中文释义、音频代码、纳西音标和视频代码。
6.如权利要求1~4任一项所述的一种东巴文释读数据库建立方法,其特征在于:所述步骤3)中,所述规则如下:定义S为规则集,C={C1、C2...Cn}为条件属性集,V=(Vc1,Vc2...Vcn)是条件属性和决策属性的值域,D是决策属性集,(d1,d2,d3...dv)为决策值;规则为:如果输入条件属性C1为值域V中的某一值Vc1,那么决策属性D为对应的决策值d1,即输出满足Vc1时相应字段对应的属性;如果输入两个条件属性C2、C3,其中C2为值域V中的某一值Vc2,C3为值域V中的某一值Vc3,那么决策属性D为决策值d2,即输出满足Vc2、Vc3时相应字段对应的属性。
7.如权利要求1~4任一项所述的一种东巴文释读数据库建立方法,其特征在于:所述步骤3)中,所述词意数据库、句意数据库和事件数据库的融合方法包括以下步骤:
(1)根据词意数据库编码唯一确定一个东巴文字,根据东巴文字的图形代码、音频代码、视频代码,同步检索出对应东巴文字的图形、音频及视频,呈现出东巴文字的内容与含义;
(2)根据词意数据库中的对应汉字以及所属分类,模糊检索句意数据库,搜索出满足同一分类的东巴语句,即根据单独的东巴文字匹配出东巴语句,从而根据句意数据库中图形代码、音频代码、视频代码,检索出对应东巴语句的图形、音频及视频;
(3)根据词意数据库中的对应汉字以及所属分类,模糊检索事件数据库,搜索出满足同一分类的东巴事件名称,即根据单独的东巴文字匹配出东巴事件,从而根据事件数据库中图形代码、音频代码、视频代码,检索出对应东巴事件的图形、音频及视频,从而实现词意数据库、句意数据库、事件数据库的融合。
CN201510303392.3A 2015-06-04 2015-06-04 一种东巴文释读数据库建立方法 Active CN104866607B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510303392.3A CN104866607B (zh) 2015-06-04 2015-06-04 一种东巴文释读数据库建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510303392.3A CN104866607B (zh) 2015-06-04 2015-06-04 一种东巴文释读数据库建立方法

Publications (2)

Publication Number Publication Date
CN104866607A CN104866607A (zh) 2015-08-26
CN104866607B true CN104866607B (zh) 2018-01-12

Family

ID=53912433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510303392.3A Active CN104866607B (zh) 2015-06-04 2015-06-04 一种东巴文释读数据库建立方法

Country Status (1)

Country Link
CN (1) CN104866607B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975597B (zh) * 2016-05-10 2019-03-22 北京信息科技大学 一种东巴经典古籍传承体系数字化国际共享平台
CN106021354A (zh) * 2016-05-10 2016-10-12 北京信息科技大学 一种东巴经典古籍数字化释读库的建立方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1523518A (zh) * 2003-02-17 2004-08-25 郭慧民 智能汉语文化辞典系统
CN101477549A (zh) * 2009-01-20 2009-07-08 中国测绘科学研究院 知识库支持下的空间数据库设计方法
CN101576909A (zh) * 2009-05-11 2009-11-11 内蒙古蒙科立软件有限责任公司 一种蒙古语数字化知识库系统构建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8602793B1 (en) * 2006-07-11 2013-12-10 Erwin Ernest Sniedzins Real time learning and self improvement educational system and method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1523518A (zh) * 2003-02-17 2004-08-25 郭慧民 智能汉语文化辞典系统
CN101477549A (zh) * 2009-01-20 2009-07-08 中国测绘科学研究院 知识库支持下的空间数据库设计方法
CN101576909A (zh) * 2009-05-11 2009-11-11 内蒙古蒙科立软件有限责任公司 一种蒙古语数字化知识库系统构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
四川古彝文字库设计及其字符集的编码;陈顺强 等;《西南民族大学学报·自然科学版》;20090731;第35卷(第4期);全文 *
纳西东巴文化数据库及其网站的建立;宋光淑;《东南大学学报(哲学社会科学版)》;20020331;第4卷(第1A期);全文 *

Also Published As

Publication number Publication date
CN104866607A (zh) 2015-08-26

Similar Documents

Publication Publication Date Title
US7979268B2 (en) String matching method and system and computer-readable recording medium storing the string matching method
US7885807B2 (en) Text analysis, transliteration and translation method and apparatus for hieroglypic, hieratic, and demotic texts from ancient Egyptian
KR100533810B1 (ko) 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법
CN102298582B (zh) 数据搜索和匹配方法和系统
CN106847288A (zh) 语音识别文本的纠错方法与装置
CN111753099A (zh) 一种基于知识图谱增强档案实体关联度的方法及系统
US9224103B1 (en) Automatic annotation for training and evaluation of semantic analysis engines
Crasborn et al. Sharing sign language data online: Experiences from the ECHO project
CN109344298A (zh) 一种将非结构化数据转化为结构化数据的方法及装置
Jänicke et al. Interactive visual alignment of medieval text versions
US20090144052A1 (en) Method and system for providing conversation dictionary services based on user created dialog data
CN106021354A (zh) 一种东巴经典古籍数字化释读库的建立方法
CN106980620A (zh) 一种对中文字串进行匹配的方法及装置
CN104866607B (zh) 一种东巴文释读数据库建立方法
CN105260396A (zh) 字词检索方法和装置
Kirmizialtin et al. Automated transcription of non-Latin script periodicals: a case study in the ottoman Turkish print archive
JP2004318510A (ja) 対訳情報作成装置、対訳情報作成用プログラム、対訳情報作成方法、対訳情報検索装置、対訳情報検索用プログラム及び対訳情報検索方法
CN111027312B (zh) 文本扩充方法、装置、电子设备及可读存储介质
CN103164398A (zh) 汉维电子辞典及其自动转译汉维语的方法
CN103164395A (zh) 汉柯电子辞典及其自动转译汉柯语的方法
CN111897958B (zh) 基于自然语言处理的古诗词分类方法
CN102207947B (zh) 一种直接引语素材库的生成方法
Cristea et al. From scan to text. Methodology, solutions and perspectives of deciphering old cyrillic Romanian documents into the Latin script
CN111540343B (zh) 一种语料识别方法和装置
Tyrkkö et al. Semi-automatic discovery of multilingual elements in English historical corpora: Methods and challenges

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240206

Address after: Room 306-A157, Internet Finance Center, No. 19, Hongzehu East Road, Suyu District, Suqian City, Jiangsu Province, 223800

Patentee after: Suqian Xinpinhui E-commerce Co.,Ltd.

Country or region after: China

Address before: 100192 Key Laboratory of Beijing city of Haidian District and small business Qinghe Road No. 12 electromechanical system

Patentee before: BEIJING INFORMATION SCIENCE AND TECHNOLOGY University

Country or region before: China