CN107451114A

CN107451114A - 一种古汉语语义分析方法及其系统

Info

Publication number: CN107451114A
Application number: CN201710509228.7A
Authority: CN
Inventors: 熊卫
Original assignee: GUANGZHOU SHINE TECHNOLOGY Co Ltd
Current assignee: GUANGZHOU SHINE TECHNOLOGY Co Ltd
Priority date: 2017-06-28
Filing date: 2017-06-28
Publication date: 2017-12-08

Abstract

本发明提供一种古汉语语义分析方法，包括步骤获取古汉语语句、词元划分、词元翻译、语义拼接、语义检查；本发明还提供一种古汉语语义分析系统，包括配置库、分析模块；配置库包括古汉语词典库；古汉语词典库包括词元释义；分析模块包括划分模块、翻译模块、拼接模块、检查模块、输出模块；本发明采用词元划分将古汉语语句划分为若干词元，获取古汉语词典库中的词元释义，后将若干词元释义拼接成古汉语初始语义，最终将古汉语初始语义与现代汉语语义模板进行匹配检查，解决古汉语语义的分析问题；本发明逻辑缜密，方法高效实用，打破古汉语分析缺乏稳定性的难题，便于古汉语语义的规则化分析与实现。

Description

一种古汉语语义分析方法及其系统

技术领域

本发明涉及语义分析，尤其涉及一种古汉语语义分析方法及其系统。

背景技术

古汉语是我国古代文化的重要载体，正确解读古汉语成为人们研究分析古代文化的关键途径；目前，有不少学者对古汉语的语义分析展开研究，其中基于统计学规律的分析方法，利用统计大量的古汉语分析数据得出一定的分析规律来辅助古汉语分析释义，但统计规律很大程度上是基于经验主义的分析方法，通过归总古汉语的形式形态的出现频率，指导古汉语分析。但因古汉语表现形式丰富，释义不一，无法确保语义分析的稳定性与一致性。

发明内容

为了克服现有技术的不足，本发明的目的在于提供一种古汉语语义分析方法及其系统。

本发明提供一种古汉语语义分析方法，包括以下步骤：

获取古汉语语句，用户端上传待分析的古汉语信息，获取以完整句为最小输入单元的古汉语语句；

词元划分，获取古汉语语句中词元，所述的词元为最小的语义单元，将所述古汉语语句中的词元顺序存储于词元栈中；

词元翻译，获取所述的词元栈，检索查找古汉语词典库中的词元释义，建立所述词元的释义关系映射；

语义拼接，获取所述词元的释义关系映射，排列组合各所述词元的的释义，得到古汉语初始语义；

语义检查，获取所述古汉语初始语义，匹配现代汉语语义模板，匹配成功则将古汉语初始语义存储至输出缓存区得到待输出语义；匹配不成功则返回语义拼接；

语义输出，输出待输出语义。

进一步地，所述的古汉语语义分析方法还包括朝代匹配，所述的朝代匹配位于词元翻译与语义拼接之间；所述的词元释义中包括词元朝代信息；

所述的朝代匹配具体为获取所述词元栈中词元朝代信息，统计得到词元栈中频率最高的词元朝代，并对所述词元的释义关系映射按照词元朝代信息排序，高频率的词元朝代的词元释义位于低频率的词元朝代的词元释义之前。

进一步地，所述的古汉语语义分析方法还包括句式匹配，所述的句式匹配位于朝代匹配与语义拼接之间；

所述的句式匹配具体为根据朝代建立句式库，获取所述的频率最高的词元朝代，得到所述的频率最高的词元朝代的语义句式，所述语义句式为所述词元的关系链表，根据所述的语义句式对所述的词元栈中的词元进行重新排序。

进一步地，所述的古汉语词典库包括词元典故，所述的语义检查还包括词元典故检查，匹配现代汉语语义模板后，对所述的古汉语初始语义与所述的词元典故进行匹配，匹配成功则将古汉语初始语义存储至输出缓存区得到待输出语义；匹配不成功则返回语义拼接。

进一步地，所述的古汉语语义分析方法还包括语义自学习，所述的语义自学习统计并记录所述的词元释义的频率、词元朝代频率、句式频率，根据所述的释义的频率、词元朝代频率、句式频率排序下一所述的古汉语语句中相同词元的词元释义、词元朝代、句式。

本发明还提供一种古汉语语义分析系统，包括配置库、分析模块；所述的配置库包括古汉语词典库；所述的古汉语词典库包括词元释义；所述的分析模块包括划分模块、翻译模块、拼接模块、检查模块、输出模块；所述的划分模块用于将古汉语语句划分为若干词元；所述的翻译模块用于获取所述的古汉语词典库中的词元释义；所述的拼接模块用于将若干所述的词元释义拼接成古汉语初始语义；所述的检查模块用于将所述的古汉语初始语义与现代汉语语义模板进行匹配检查，匹配成功则将所述的古汉语初始语义传输至所述的输出模块输出；匹配不成功则丢弃所述的古汉语初始语义，所述的拼接模块重新拼接。

进一步地，所述的配置库还包括朝代库；所述的朝代库内存储的朝代信息关联所述的古汉语词典库内的词元释义；所述的古汉语词典库还包括词元典故，所述的词元典故内存储有词元的典故信息；所述的检查模块对所述的古汉语初始语义与所述的词元典故进行匹配，匹配成功则将古汉语初始语义存储至所述的输出模块的输出缓存区得到待输出语义；匹配不成功则返回至所述的拼接模块进行语义拼接。

进一步地，所述的配置库还包括句式库，所述的句式库包括朝代句式库与现代句式库；所述的朝代句式库内存储的句式信息关联所述的朝代库内存储的朝代信息；所述的现代句式库用于存储所述的现代汉语语义模板。

进一步地，所述的分析模块还包括匹配模块；所述的匹配模块包括朝代匹配模块与句式匹配模块；所述的朝代匹配模块用于获取词元的朝代信息，统计得到频率最高的词元朝代，并对词元的释义关系映射按照词元朝代信息排序；所述的句式匹配模块用于根据朝代句式库，获取所述的频率最高的词元朝代，得到所述的频率最高的词元朝代的语义句式，根据所述的语义句式对词元进行排序。

进一步地，所述的分析模块还包括自学习模块；所述的自学习模块用于统计并记录词元释义的频率、词元朝代频率、句式频率，根据所述的词元释义的频率、词元朝代频率、句式频率排序下一古汉语语句中相同词元的词元释义、词元朝代、句式。

相比现有技术，本发明的有益效果在于：

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的一种古汉语语义分析方法流程示意图；

图2为本发明的一种古汉语语义分析系统框架示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

一种古汉语语义分析方法，如图1所示，包括以下步骤：

获取古汉语语句，用户端上传待分析的古汉语信息，获取以完整句为最小输入单元的古汉语语句；一般的，用户上传整篇古汉语文章，以“。”、“？”、“！”等断句符号作为断句标识，对文章划分为单独的古汉语语句，并存储至古汉语文章的数据链表中。

词元划分，获取古汉语语句中词元，词元为最小的语义单元，将古汉语语句中的词元顺序存储于词元栈中；对古汉语语句中的各个词元进行划分，将整句划分为若干独立词元，其中重复词元可重复记录，也可定义词元出现次数。

词元翻译，获取词元栈，检索查找古汉语词典库中的词元释义，建立词元的释义关系映射；依次检查词元栈中各词元在古汉语词典库中的词元释义，一般的，词元释义为多重释义即含义不唯一，建立词元与词元释义的超链接，并将词元释义中的各释义存至释义队列中。

朝代匹配，词元释义中包括词元朝代信息；朝代匹配具体为获取词元栈中词元朝代信息，统计得到词元栈中频率最高的词元朝代，并对词元的释义关系映射按照词元朝代信息排序，对释义队列中的各释义进行重新排列，高频率的词元朝代的词元释义位于低频率的词元朝代的词元释义之前。

句式匹配，句式匹配具体为根据朝代建立句式库，获取频率最高的词元朝代，得到频率最高的词元朝代的语义句式，语义句式为词元的关系链表，根据语义句式对词元栈中的词元进行重新排序。一般的，朝代句式库中单一朝代的句式不唯一，按句式顺序，依次对词元栈中的词元进行顺序排列；为提高分析效率，可临时建立多个镜像词元栈，利用多句式分别对多个镜像词元栈同时进行顺序排列。

语义拼接，获取词元的释义关系映射，排列组合各词元的的释义，得到古汉语初始语义；按照词元栈中各词元顺序与各释义队列中释义，依次排列组合得到古汉语初始语义。

语义检查，获取古汉语初始语义，匹配现代汉语语义模板，匹配成功则将古汉语初始语义存储至输出缓存区得到待输出语义；匹配不成功则返回语义拼接，进行下一排列组合；古汉语词典库包括词元典故，语义检查还包括词元典故检查，匹配现代汉语语义模板后，对古汉语初始语义与词元典故进行匹配，匹配成功则将古汉语初始语义存储至输出缓存区得到待输出语义；匹配不成功则返回语义拼接，进行下一排列组合，直至得到词元释义最佳的排列组合方式。

语义输出，输出待输出语义；特别的，在古汉语中，语义往往不唯一，在语义输出时，对语义检查匹配成功的排列组合也不唯一，输出所有匹配成功的输出语义供用户参考。

语义自学习，在单篇古汉语中，语义往往存在语义继承，如此引入统计学对已经分析处理的古汉语语句进行统计，语义自学习统计并记录词元释义的频率、词元朝代频率、句式频率，根据释义的频率、词元朝代频率、句式频率排序下一古汉语语句中相同词元的词元释义、词元朝代、句式。具体的，通过词元释义的频率、词元朝代频率、句式频率的频率高低对下一古汉语语句中相同词元的词元释义、词元朝代、句式进行事先排序，即置顶频率高的词元释义、词元朝代、句式，优化下次分析过程，节省分析时间。

本发明还提供一种古汉语语义分析系统，如图2所示，包括配置库、分析模块；配置库包括古汉语词典库；古汉语词典库包括词元释义；分析模块包括划分模块、翻译模块、拼接模块、检查模块、输出模块；划分模块用于将古汉语语句划分为若干词元；翻译模块用于获取古汉语词典库中的词元释义；拼接模块用于将若干词元释义拼接成古汉语初始语义；检查模块用于将古汉语初始语义与现代汉语语义模板进行匹配检查，匹配成功则将古汉语初始语义传输至输出模块输出；匹配不成功则丢弃古汉语初始语义，拼接模块重新拼接。

在一实施例中，配置库还包括朝代库；朝代库内存储的朝代信息关联古汉语词典库内的词元释义；古汉语词典库还包括词元典故，词元典故内存储有词元的典故信息；检查模块对古汉语初始语义与词元典故进行匹配，匹配成功则将古汉语初始语义存储至输出模块的输出缓存区得到待输出语义；匹配不成功则返回至拼接模块进行语义拼接。

在一实施例中，配置库还包括句式库，句式库包括朝代句式库与现代句式库；朝代句式库内存储的句式信息关联朝代库内存储的朝代信息；现代句式库用于存储现代汉语语义模板。

在一实施例中，分析模块还包括匹配模块；匹配模块包括朝代匹配模块与句式匹配模块；朝代匹配模块用于获取词元的朝代信息，统计得到频率最高的词元朝代，并对词元的释义关系映射按照词元朝代信息排序；句式匹配模块用于根据朝代句式库，获取频率最高的词元朝代，得到频率最高的词元朝代的语义句式，根据语义句式对词元进行排序。

在一实施例中，分析模块还包括自学习模块；自学习模块用于统计并记录词元释义的频率、词元朝代频率、句式频率，根据词元释义的频率、词元朝代频率、句式频率排序下一古汉语语句中相同词元的词元释义、词元朝代、句式。

应当理解，配置库具体为数据库，其中定义了数据本身与数据之间相互映射关系；分析模块中各模块具体为程序模块，利用计算机程序实现上述方法中的各功能。

以上，仅为本发明的较佳实施例而已，并非对本发明作任何形式上的限制；凡本行业的普通技术人员均可按说明书附图所示和以上而顺畅地实施本发明；但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内，利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化，均为本发明的等效实施例；同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等，均仍属于本发明的技术方案的保护范围之内。

Claims

1.一种古汉语语义分析方法，其特征在于，包括以下步骤：

语义输出，输出待输出语义。

2.如权利要求1所述的一种古汉语语义分析方法，其特征在于：所述的古汉语语义分析方法还包括朝代匹配，所述的朝代匹配位于词元翻译与语义拼接之间；所述的词元释义中包括词元朝代信息；

3.如权利要求2所述的一种古汉语语义分析方法，其特征在于：所述的古汉语语义分析方法还包括句式匹配，所述的句式匹配位于朝代匹配与语义拼接之间；

4.如权利要求1所述的一种古汉语语义分析方法，其特征在于：所述的古汉语词典库包括词元典故，所述的语义检查还包括词元典故检查，匹配现代汉语语义模板后，对所述的古汉语初始语义与所述的词元典故进行匹配，匹配成功则将古汉语初始语义存储至输出缓存区得到待输出语义；匹配不成功则返回语义拼接。

5.如权利要求3所述的一种古汉语语义分析方法，其特征在于：所述的古汉语语义分析方法还包括语义自学习，所述的语义自学习统计并记录所述的词元释义的频率、词元朝代频率、句式频率，根据所述的释义的频率、词元朝代频率、句式频率排序下一所述的古汉语语句中相同词元的词元释义、词元朝代、句式。

6.一种古汉语语义分析系统，其特征在于：包括配置库、分析模块；所述的配置库包括古汉语词典库；所述的古汉语词典库包括词元释义；所述的分析模块包括划分模块、翻译模块、拼接模块、检查模块、输出模块；所述的划分模块用于将古汉语语句划分为若干词元；所述的翻译模块用于获取所述的古汉语词典库中的词元释义；所述的拼接模块用于将若干所述的词元释义拼接成古汉语初始语义；所述的检查模块用于将所述的古汉语初始语义与现代汉语语义模板进行匹配检查，匹配成功则将所述的古汉语初始语义传输至所述的输出模块输出；匹配不成功则丢弃所述的古汉语初始语义，所述的拼接模块重新拼接。

7.如权利要求6所述的一种古汉语语义分析系统，其特征在于：所述的配置库还包括朝代库；所述的朝代库内存储的朝代信息关联所述的古汉语词典库内的词元释义；所述的古汉语词典库还包括词元典故，所述的词元典故内存储有词元的典故信息；所述的检查模块对所述的古汉语初始语义与所述的词元典故进行匹配，匹配成功则将古汉语初始语义存储至所述的输出模块的输出缓存区得到待输出语义；匹配不成功则返回至所述的拼接模块进行语义拼接。

8.如权利要求7所述的一种古汉语语义分析系统，其特征在于：所述的配置库还包括句式库，所述的句式库包括朝代句式库与现代句式库；所述的朝代句式库内存储的句式信息关联所述的朝代库内存储的朝代信息；所述的现代句式库用于存储所述的现代汉语语义模板。

9.如权利要求8所述的一种古汉语语义分析系统，其特征在于：所述的分析模块还包括匹配模块；所述的匹配模块包括朝代匹配模块与句式匹配模块；所述的朝代匹配模块用于获取词元的朝代信息，统计得到频率最高的词元朝代，并对词元的释义关系映射按照词元朝代信息排序；所述的句式匹配模块用于根据朝代句式库，获取所述的频率最高的词元朝代，得到所述的频率最高的词元朝代的语义句式，根据所述的语义句式对词元进行排序。

10.如权利要求9所述的一种古汉语语义分析系统，其特征在于：所述的分析模块还包括自学习模块；所述的自学习模块用于统计并记录词元释义的频率、词元朝代频率、句式频率，根据所述的词元释义的频率、词元朝代频率、句式频率排序下一古汉语语句中相同词元的词元释义、词元朝代、句式。