CN103605755B

CN103605755B - 一种谚文数据库的构建方法及谚文数据库检索系统

Info

Publication number: CN103605755B
Application number: CN201310597535.7A
Authority: CN
Inventors: 朱炜; 尉迟治平; 高天俊; 尉迟明
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2013-11-23
Filing date: 2013-11-23
Publication date: 2015-07-29
Anticipated expiration: 2033-11-23
Also published as: CN103605755A

Abstract

本发明公开了一种谚文数据库的构建方法及谚文数据库检索系统，谚文数据库的建立方法包括步骤：S1、按照谚文类别构建数据表，具体包括书库数据表、卷次库数据表、句子库数据表、被释词库数据表、左音音库数据表、右音音库数据表、字库数据表、单字库数据表；S2、根据各类别谚文的属性在相应数据表中设置谚文属性字段，并选取字段为数据表之间建立索引；S3、将谚文源文档转换为谚文电子数据；S4、将谚文电子数据按照类别分别导入相应的数据表中，由此生成谚文数据库。实施本发明可检索到谚文电子数据中句子、汉字、谚文注音、谚文注释、音韵地位、声调标点等详细信息，进而利用这些成果对近代汉语或韩语的语音系统进行历时和共时的分析和讨论。

Description

一种谚文数据库的构建方法及谚文数据库检索系统

技术领域

本发明属于汉语及韩语资讯处理技术领域，更具体地，涉及一种谚文数据库的构建方法及谚文数据库检索系统。

背景技术

韩字是由朝鲜王朝第四代君主世宗大王于1443年通过《训民正音》创制而成，用韩字写成的文章称为“谚文”。在此之前，韩语只以口语形式存在，朝廷、文武两班等统治阶级书写使用汉字。为了方便本国人学习汉语，在朝鲜产生了用韩字对汉字注音和翻译的各种对音韵书、辞书及汉语教科书，如：《东国正韵》、《四声通解》、《译语类解》、《老乞大》、《朴通事》等。这些对音文献为研究同时代汉语语言系统及韩语语言系统提供了非常重要的资料。

目前，对音韵书、辞书及汉语教科书的研究主要是通过对纸本进行统计查阅。由于上述书目前后跨越近三百年，其中的句子、汉字、谚文注音、声调标点及谚文注释均随当时汉语的变化而发生变化，很难进行全面系统的比较研究。因此开发一套能够涵盖句子、汉字、谚文注音、声调标点、谚文注释的谚文数据库及使用该数据库进行谚文检索的检索系统，可为综合研究16世纪-18世纪近代汉语的语音、声调、词汇、语法乃至同时代韩语的发展变化提供一种方便、快捷、有效的工具。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种谚文数据库的构建方法及谚文数据库检索系统，其目的在于将谚文源文档转化为可进行文本查找的谚文电子数据，使得用户可以检索到谚文电子数据中句子、汉字、谚文注音、谚文注释、音韵地位、声调标点等详细信息，利用这些成果对近代汉语或韩语的语音系统进行历时和共时的分析和讨论，由此解决目前难以对谚文音韵书、辞书及汉语教科书进行全面系统研究的技术问题。

本发明解决其技术问题所采用的技术方案是，提供一种建立谚文数据库的方法，所述方法包括以下步骤：

S1、按照谚文类别构建数据表，具体包括书库数据表、卷次库数据表、句子库数据表、被释词库数据表、左音音库数据表、右音音库数据表、字库数据表、单字库数据表和音韵地位库数据表；所述书库数据表包含所述谚文电子数据的书名号、书名、作者、成书年代、所据底本、收录源字段信息，所述卷次库数据表包含所述谚文电子数据的卷号、书名号、卷次字段信息，所述句子库数据表包含所述谚文电子数据的句号、卷号、页码、正文带页码及颜色标记、正文、中文句子、谚文注释、句子备注字段信息，所述被释词库数据表包含所述谚文电子数据的被释词号、句号、汉字号、被释词号、汉字备注、谚文左音、谚文左音备注、谚文左点、谚文左点备注、谚文左音标号、谚文右音、谚文右音备注、谚文右点、谚文右点备注、谚文右音标号、汉字左点、汉字左点备注、汉字右点、汉字右点备注字段信息，所述左音音库数据表包含所述谚文电子数据的左音标号、谚文左音、谚文左音转写、左音声母、左音韵母、左音尾音字段信息，所述右音音库数据表包含所述谚文电子数据的右音标号、谚文右音、谚文右音转写、右音声母、右音韵母、右音尾音字段信息，所述字库数据表包含所述谚文电子数据的汉字号、字Unicode、被释汉字字段信息，所述单字库数据表包含所述谚文电子数据的单字号、字Unicode、字字段信息，所述音韵地位库数据表包含所述谚文电子数据的字Unicode、字音号、字、音书、上字、反切下字、摄、韵、呼、等、调、纽字段信息；所述谚文左音和谚文右音中的注音为与腭介音的二等、三等、四等结合时，注音为

S2、根据各类别谚文的属性在相应数据表中设置谚文属性字段，并选取字段为数据表之间建立索引；所述书库数据表与所述卷次库数据表之间通过“书名号”建立索引；所述卷次库数据表与所述句子库数据表之间通过“卷号”建立索引；所述句子库数据表与所述被释词库数据表之间通过“句号”建立索引；所述被释词库数据表与所述左音音库数据表之间通过“谚文左音标号”建立索引；所述被释词库数据表与所述右音音库数据表之间通过“谚文右音标号”建立索引；所述被释词库数据表与所述字库数据表之间通过“汉字号”建立索引；所述字库数据表与所述单字库数据表之间通过“字Unicode”建立索引；所述单字库数据表与所述音韵地位库数据表之间通过“字Unicode”建立索引；

S3、将谚文源文档转换为谚文电子数据；

S4、将所述谚文电子数据按照类别分别导入相应的数据表中，由此生成谚文数据库。

相应地，本发明还提供一种谚文数据库检索系统，所述系统包括：

输入模块，用于输入检索命令；

与所述输入模块相连的检索模块，用于接受所述检索命令并根据所述检索命令进行检索以获取谚文数据库中的谚文电子数据信息，并控制输出模块输出查询检索结果；

与所述检索模块相连的，用于存储谚文电子数据的谚文数据库，所述谚文数据库由按照谚文类别构建的数据表生成，具体包括书库数据表、卷次库数据表、句子库数据表、被释词库数据表、左音音库数据表、右音音库数据表、字库数据表、单字库数据表和音韵地位库数据表，根据各类别谚文的属性在相应数据表中设置谚文属性字段，并选取字段为数据表之间建立索引；

所述书库数据表包含所述谚文电子数据的书名号、书名、作者、成书年代、所据底本、收录源字段信息，所述卷次库数据表包含所述谚文电子数据的卷号、书名号、卷次字段信息，所述句子库数据表包含所述谚文电子数据的句号、卷号、页码、正文带页码及颜色标记、正文、中文句子、谚文注释、句子备注字段信息，所述被释词库数据表包含所述谚文电子数据的被释词号、句号、汉字号、被释词号、汉字备注、谚文左音、谚文左音备注、谚文左点、谚文左点备注、谚文左音标号、谚文右音、谚文右音备注、谚文右点、谚文右点备注、谚文右音标号、汉字左点、汉字左点备注、汉字右点、汉字右点备注字段信息，所述左音音库数据表包含所述谚文电子数据的左音标号、谚文左音、谚文左音转写、左音声母、左音韵母、左音尾音字段信息，所述右音音库数据表包含所述谚文电子数据的右音标号、谚文右音、谚文右音转写、右音声母、右音韵母、右音尾音字段信息，所述字库数据表包含所述谚文电子数据的汉字号、字Unicode、被释汉字字段信息，所述单字库数据表包含所述谚文电子数据的单字号、字Unicode、字字段信息，所述音韵地位库数据表包含所述谚文电子数据的字Unicode、字音号、字、音书、反切上字、反切下字、摄、韵、呼、等、调、纽字段信息；所述谚文左音和谚文右音中的注音为与腭介音的二等、三等、四等结合时，注音为

所述书库数据表与所述卷次库数据表之间通过“书名号”建立索引；所述卷次库数据表与所述句子库数据表之间通过“卷号”建立索引；所述句子库数据表与所述被释词库数据表之间通过“句号”建立索引；所述被释词库数据表与所述左音音库数据表之间通过“谚文左音标号”建立索引；所述被释词库数据表与所述右音音库数据表之间通过“谚文右音标号”建立索引；所述被释词库数据表与所述字库数据表之间通过“汉字号”建立索引；所述字库数据表与所述单字库数据表之间通过“字Unicode”建立索引；所述单字库数据表与所述音韵地位库数据表之间通过“字Unicode”建立索引；

与所述检索模块相连的，用于输出检索结果的输出模块。

在本发明所述的谚文数据库检索系统中，所述系统还包括与所述谚文数据库相连的用于将谚文源文档转换为所述谚文电子数据的数据转换模块，与所述数据转换模块相连的用于在所述谚文源文档发生变化时更新所述谚文数据库中的谚文电子数据的数据更新模块。

因此，本发明可以获得以下的有益效果：将谚文源文档进行数字化处理转换为谚文电子数据，方便进行输入、查找和更新；将谚文源文档中的声母、韵母、尾音按照国际音标转写表转写，方便了谚文数据库的建立以及谚文电子数据的查询；将谚文电子数据按照类别分别导入到书库数据表、卷次库数据表、句子库数据表、被释词库数据表、左音音库数据表、右音音库数据表、字库数据表、单字库数据表中，便于分类查询；为每一个数据表建立多个用于描述该数据表的字段，通过查询检索命令可检索到谚文电子数据中的句子、词语、汉字、汉字谚文注音左音、汉字谚文注音右音、左音国际音标、右音国际音标、汉字音韵地位等详细信息。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明一个实施例的建立谚文数据库的方法流程图；

图2是本发明图1所述实施例的数据库结构框图；

图3是本发明图1所述实施例的数据库可视关系图；

图4是本发明一个实施例的谚文数据库检索系统的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

图1是本发明一个实施例的建立谚文数据库的方法流程图。如图1所示，本发明建立谚文数据的方法包括以下步骤：

S1、按照谚文类别构建数据表，具体包括书库数据表、卷次库数据表、句子库数据表、被释词库数据表、左音音库数据表、右音音库数据表、字库数据表、单字库数据表；

S2、根据各类别谚文的属性在相应数据表中设置谚文属性字段，并选取字段为数据表之间建立索引；

S3、将谚文源文档转换为谚文电子数据；

S4、将谚文电子数据按照类别分别导入相应的数据表中，由此生成谚文数据库。

在本实施例中，以《翻译老乞大》、《翻译朴通事》、《老乞大谚解》、《朴通事谚解》、《老乞大新释谚解》、《朴通事新释谚解》及《重刊老乞大谚解》七本书(以下简称谚译《老朴》)作为本实施例中进行数据库构建的源文档。

图2是图1所述实施例的数据库结构框图。如图2所示，数据库包括书库数据表、卷次库数据表、句子库数据表、被释词库数据表、左音音库数据表、右音音库数据表、字库数据表、单字库数据表。步骤S1中，数据表的建立依据语言学结构，按照谚文类别进行构建，便于进行分类查询。

步骤S2中，根据各类别谚文的属性在相应数据表中设置谚文属性字段，其中，书库数据表包含上述七本书的基本信息，具体为包含谚文电子数据的书名号、书名、作者、成书年代、所据底本、收录源字段信息；

卷次库数据表包含七本书的所有卷次信息，具体为包含谚文电子数据的卷号、书名号、卷次字段信息；

句子库数据表包含七本书的所有句子信息，具体为包含谚文电子数据的句号、卷号、页码、正文带页码及颜色标记、正文、中文句子、谚文注释、句子备注字段信息；

被释词库数据表包含句子库里每句话中所含每个汉字的信息(重复汉字需反复记录)，具体为包含谚文电子数据的被释词号、句号、汉字号、被释词号、汉字备注、谚文左音、谚文左音备注、谚文左点、谚文左点备注、谚文左音标号、谚文右音、谚文右音备注、谚文右点、谚文右点备注、谚文右音标号、汉字左点、汉字左点备注、汉字右点、汉字右点备注字段信息；

左音音库数据表包含七本书的所有汉字左音谚文注音信息，具体为包含谚文电子数据的左音标号、谚文左音、谚文左音转写、左音声母、左音韵母、左音尾音字段信息；

右音音库数据表包含七本书的所有汉字右音谚文注音信息，具体为包含谚文电子数据的右音标号、谚文右音、谚文右音转写、右音声母、右音韵母、右音尾音字段信息；

字库数据表包含七本书中所有汉字的信息(重复汉字只记录一次，但同字异书、难写字分别记录)，具体为包含谚文电子数据的汉字号、字Unicode、被释汉字字段信息；

单字库数据表包含七本书中所有汉字的信息(重复汉字只记录一次)，具体为包含谚文电子数据的单字号、字Unicode、字字段信息；

音韵地位库数据表包含单字库里所有汉字的音韵地位信息，具体为包含谚文电子数据的字Unicode、字音号、字、音书、反切上字、反切下字、摄、韵、呼、等、调、纽字段信息。

图3是图1所述实施例的数据库可视关系图。本实施所述方法的步骤S2中，选择字段名称为数据表之间建立索引。如图3所示，书库数据表与卷次库数据表之间通过“书名号”建立索引；卷次库数据表与句子库数据表之间通过“卷号”建立索引；句子库数据表与被释词库数据表之间通过“句号”建立索引；被释词库数据表与左音音库数据表之间通过“谚文左音标号”建立索引；被释词库数据表与右音音库数据表之间通过“谚文右音标号”建立索引；被释词库数据表与字库数据表之间通过“汉字号”建立索引；字库数据表与单字库数据表之间通过“字Unicode”建立索引；单字库数据表与音韵地位库数据表之间通过“字Unicode”建立索引。

本实施所述方法的步骤S3中，将上述谚译《老朴》源文档共计75万5千余字完整数字化即全部转换为可进行文本查找的谚文电子数据。在源文档数字化的过程中，对谚译《老朴》的声母、韵母及韵尾国际音标转写采用如下方式：

1)送气音的转写标志，根据最新版的国际音标，本实施例中使用“h”表示送气音。

2)由于谚译《老朴》的组和组字母区分不严谨，即不分左右腿长短，为了能够比较客观地地反映组和组字母注音的原始信息，本实施例中把左右腿不分长短的注成以作区別。与腭介音的二等、三等、四等结合时，注成

3)谚文字母不同而韵尾相同的国际音标后面，采用阿拉伯数字加以区别，这样的做法是为了方便数据库各种关系的建立，能够通过一种国际音标转写迅速找到对应的谚文。比如：和这两个字是同字异书，区别在于尾音，一个尾音是另一个尾音是两个尾音的国际音标都是为了方便将来查找，把的国际音标用表示以作区别。

4)用标注，“|”用标注。

本实施例中将谚文源文档(谚译《老朴》)中的声母、韵母、尾音的谚文读音按照相应的转写表转写为谚文数据库中的声母、韵母、尾音的国际音标读音，所述转写表如下：

本实施例在文字体格式处理上采用了以下方法：

1)如果在韵书字书中没有找到的原文汉字，用圆括弧的方式注明，如：筆(茟)，圆括弧里的是原文出现的汉字，圆括弧前的是韵书字书里能够找到的汉字。

2)如果在计算机字库里找不到相应的汉字时，就采用“拼字”的方法，拼出来的汉字用尖括号表示。如：竄＜馬*竄＞，竄在原文中的写法是“馬”字旁加“竄”。

3)谚文属于古韩语很多韩字在韩语软件“Hangul”可以正常显示，但是转到“MC Word”就变成成重叠字，给编程带来很多麻烦，为了避免重叠字的出现，本文将这类字拆写成几个部分，并用“+”连接，如：

4)谚文注释中，()部分是书中出现的内容，根据上下文意思校对的内容写在括弧前面，如：

在步骤S3中，若谚文源文档发生变化，则按照以上声母、韵母及韵尾国际音标转写方式、文字体格式处理方式更新谚文电子数据。

采用本实施例的方法建立的数据库平台开放且易于扩展，可采用同样的方式可将现存的其它韩字注音并注释的韵书、辞书数字化，如《东国正韵》(1447)、《洪武正韵译训》(1455)、《四声通考》(1455)、《四声通解》(1517)、《译语类解》(1690)、《译语类解补》(1775)、《汉清文鉴》(1776)、《古今释林》(1789)等，建立统一的数据库，便于进行不同朝汉对音书籍之间的对比研究；同时，建立完成的数据库接口开放，可与已有的汉语语料数据库实现无缝对接，这样，即能获得同一汉字同时代及不同时代韵书及辞书中的信息，又能有效分析其在共时及历时的演变；其次，采用本实施的方法建立的数据库兼容性良好，由于将古籍完全数字化，数据库中只包含文本，结构简单，在安装了相关字库文件后，可在Access,Oracle,MySQL,MS SQL等数据库软件中使用。

图4是本发明一个实施例的谚文数据库检索系统的结构框图。如图4所示，该系统包括用于输入检索命令的输入模块；与输入模块相连的用于接收检索命令并根据该检索命令进行检索的检索模块；与检索模块相连的，用于存储谚文电子数据的谚文数据库，谚文数据库由按照谚文类别构建的数据表生成，具体包括书库数据表、卷次库数据表、句子库数据表、被释词库数据表、左音音库数据表、右音音库数据表、字库数据表、单字库数据表，根据各类别谚文的属性在相应数据表中设置谚文属性字段，并选取字段为数据表之间建立索引；与检索模块相连的用于输出检索结果的输出模块。其中，检索模块根据检索命令获取谚文数据库中的谚文电子数据信息，并控制输出模块输出查询检索结果。

在输入模块中，可使用[被释汉字]+""+[谚文左音]+""+"["+[谚文左音转写]+"]"+""+[谚文右音]+""+"["+[谚文右音转写]+"]"+""+[音书]+[反切上字]+[反切下字]+"切"+""+[纽]+[呼]+[等]+[调]检索命令进行数据库检索，即通过上述任意一个关键词，可检索到包含该关键词的谚文数据信息。

在图4所示实施例的谚文数据库检索系统中，该系统还包括与谚文数据库相连的数据转换模块，与数据转换模块相连的数据更新模块。数据转换模块用于将谚文纸质源文档进行数字化处理，转换为谚文电子数据；数据更新模块用于在谚文源文档发生变化时，对谚文电子数据进行更新。

通过本实施例的谚文数据库检索系统，可以根据用户实际需要，检索出任一本书中的句子、汉字、谚文注音、谚文注释、音韵地位、声调标点等详细信息，利用这些成果对近代汉语或韩语的语音系统进行历时和共时的分析和讨论。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种建立谚文数据库的方法，其特征在于，所述方法包括以下步骤：

S3、将谚文源文档转换为谚文电子数据；

2.一种谚文数据库检索系统，其特征在于，所述系统包括：

输入模块，用于输入检索命令；

与所述检索模块相连的，用于存储谚文电子数据的谚文数据库，所述谚文数据库包括书库数据表、卷次库数据表、句子库数据表、被释词库数据表、左音音库数据表、右音音库数据表、字库数据表、单字库数据表和音韵地位库数据表，所述数据表中包括根据各类别谚文的属性设置的谚文属性字段，所述数据表之间通过字段建立索引；

与所述检索模块相连的，用于输出检索结果的输出模块。

3.如权利要求2所述的谚文数据库检索系统，其特征在于，所述系统还包括与所述谚文数据库相连的用于将谚文源文档转换为所述谚文电子数据的数据转换模块，与所述数据转换模块相连的用于在所述谚文源文档发生变化时更新所述谚文数据库中的谚文电子数据的数据更新模块。