CN113239692A

CN113239692A - 一种基于古代汉语的分词方法

Info

Publication number: CN113239692A
Application number: CN202110515099.9A
Authority: CN
Inventors: 宿鹏; 杨雷; 吕强; 段飞虎; 印东敏; 顾君; 张宏伟
Original assignee: Tongfang Knowledge Network Beijing Technology Co ltd; Tongfang Knowledge Network Digital Publishing Technology Co ltd
Current assignee: Tongfang Knowledge Network Beijing Technology Co ltd; Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2021-08-10

Abstract

本发明公开了一种基于古代汉语的分词方法，包括从朝代维度构建分词词典和分词文本库并存储到数据库中，利用分词词典对数据库中的语料集进行分词，结合已有的分词文本进行训练语料标注；使用BiLSTM‑CRF算法对古文分词文本的数据进行模型训练；生成古代汉语的分词模型；抽取该朝代的部分古文文本，使用分词模型进行切分词操作，获取分词结果，然后与专家人工的古文分词结果做对比，判断该模型的性能与实用性，对识别结果进行审核、筛选、修正；对审核修改后的分词结果进行按照需求的维度进行存储。

Description

一种基于古代汉语的分词方法

技术领域

本发明涉及汉语切分词的分词技术领域，尤其涉及一种基于古代汉语的分词方法。

背景技术

现有随着数字人文领域研究的兴起，该领域也逐步走进人们的视野。数字人文也被称为人文计算，是一种对人文学科进行计算、研究、分析的一门交叉学科，对文本内容使用科学的方法进行计量，覆盖了人文学科的各个方向。数字人文分析的重要基础操作之一就是文本的切分词。然而现阶段，都是针对现代的文本进行切分词，但是由于很多数字人文研究涉及到古代文献的分析计量，使用现代切分词模型就会导致文本的切分错误，并且古代文献的时间跨度长达几千年，导致各个朝代的文献文本切分有所差异。如果使用一个特定的朝代进行文本切分，就会导致切分词的不准确，对后续的研究带来误差。

现有的切分词有以下方案：1、基于字符串匹配的分词算法，该方法是按照固定的策略将待分词的文本与已有的词条进行匹配、切分。按照匹配方向的不同可分为正向最大匹配和逆向最大匹配；但是该模式算法的可以移植性差；2、基于理解的切分词，该基本思想是在分词的同时进行句法和语义分析，用来消除歧义切分现象；基本分为：分词系统、语法语义系统、总控系统，但是该方法的算法复杂度高，技术也不成熟，分词速率较其他两种慢3、基于神经网络的切分词算法，是数据驱动型方法，对训练集数据质量的依赖程度高，需要对模型的进行不断的调参优化。

古代汉语分词是数字人文领域研究的一项重要基础，后续的统计分析操作都依赖于分词的准确性。由于对古文研究的人比较缺少，导致现阶段的分词系统都是针对现代文的分词研究，对于古代汉语的分词质量还比较差。

发明内容

为解决上述技术问题，本发明的目的是提供一种基于古代汉语的分词方法，该方法采用构建不同时期的分词词典。因此，在对不同时期的古代汉语分词时，分词的结果更加准确。提高了后续研究的可靠性，并且该方法构建分词词典和分词文本可以用于模型的迭代训练。

本发明的目的通过以下的技术方案来实现：

一种基于古代汉语的分词方法，包括：

步骤A从朝代维度构建分词词典和分词文本并存储到数据库中；

步骤B使用分词词典对数据进行自动分词，将获取的分词结果和原有的分词文本合并作为新的训练语料，对训练语料进行自动标注，生成标注好的训练语料集；

步骤C将标注好的训练语料集加载到程序中，使用BiLSTM-CRF算法对古文分词文本的数据进行训练，生成古代汉语的分词模型；

步骤D抽取该朝代的部分古文文本，使用分词模型进行切分词操作，获取分词结果，与古文分词结果做对比，判断该模型的性能与实用性，对识别结果进行审核、筛选、修正；

步骤E对审核修改后的分词结果进行按照需求的维度进行存储。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

针对现有的古代汉语切分词的切分准确度不高，且训练语料不足的问题，实现了一种基于古代汉语的分词方法，该方法构建各个朝代的分词词库和分词文本的方式，可以有效的提高不同时期的古文的分词质量。使用 BiLSTM-CRF算法进行训练，生成分词模型，并且该方法可以根据词典的切分词结果进行迭代训练，提高算法分词的准确率。增加后续分析计算的可靠性，促进数字人文领域的发展。

附图说明

图1是基于古代汉语的分词方法流程图；

图2是BiLSTM-CRF算法的工作流程图；

图3是模型对古代汉语文本-兰亭集序的分词结果。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

本发明公开了基于古代汉语的分词方法研究，例如对各个时期的古文汉语文献进行分词处理，为后续的数字人文计算提供可靠的分词数据，本发明主要提出的核心操作有两个：1.解决现有的古代汉语分词的准确度不高的问题。2.采用构建多维度构建分词词典和分词文本的方式，提高算法的切分准确度。3.采用闭环的工作流程，使得模型的迭代训练，有助于提高分词的准确度。

为了降低人工标注的资源浪费以及不准确性。在获取训练数据集时，采用构建各个朝代的分词词典和分词文本，使用分词词典对未处理的古文数据进行分词处理，结果分词文本作为训练语料的备选集。

如图1所示，是基于古代汉语的分词方法，包括：

步骤1从朝代维度构建分词词典和分词文本库，

步骤2选取在分词文本库中找到相关朝代的数据作为训练语料，如果训练的语料不足则在古籍中找到相关朝代的文本，使用分词词典对数据进行自动分词，将获取的分词结果和原有的分词文本合并作为新的训练语料，对训练语料进行自动标注，生成标注好的训练语料集；

步骤3将标注好的训练语料集加载到程序中，使用BiLSTM-CRF算法对古文分词文本的数据进行训练，并通过观察训练结果，调整参数，优化分词模型，最终生成古代汉语的分词模型；

步骤4抽取该朝代的部分古文文本，使用分词模型进行切分词操作，获取分词结果，然后与专家人工的古文分词结果做对比，判断该模型的性能与实用性，对识别结果进行审核、筛选、修正；

步骤5对审核修改后的分词结果进行按照需求的维度进行存储。

上述步骤1具体包括获取古代汉语文献，按照固定的格式进行文本分词，将切分好的词导入到分词词典中，并存储该分词文本；

分词词库用于待训练语料的分词，将生成的分词文本库，用于模型迭代训练的使用。

上述步骤2中对分词进行格式标注，标注格式为：B、I和O，B表示该切分词的首部，I表示切分词的中间部分，O表示单字成词。标注示例如下所示：

例句：严重“帝高阳之苗裔兮，朕皇考曰伯庸。摄提贞于孟陬兮，惟庚寅吾以降。”。标注成训练文本后为一下格式：

帝O

高B

阳I

之O

苗B

裔I

兮O

,O

朕O

皇B

考I

曰O

伯B

庸I

。O

摄B

提I

贞O

于O

孟B

陬I

兮O

,O

惟O

庚B

寅I

吾O

以O

降O

第一列数据表示标注到的汉语文本，第二列的数据表示古代汉语文本的切词结果，以及该数据在词语中位置。在上述例句中切分成多字的词。1.高阳：高阳氏，黄帝的孙子，上古部落联盟首领。2.苗裔：子孙后代。3.摄提：为神话天皇时代创制的纪元法，是“摄提纪”、“摄提格”的简称。4.庚寅：中国干支纪法的干支之一。

如图2所述步骤C中BiLSTM-CRF算法包括：

1)单词输入，进入look-up layer层，使用CBOW、skip-gram或者glove 模型将输入的词转换为词向量，并且对获取的词向量进行droupout操作，避免过拟合问题；

2)将获取的数据结果作为双向LSTM神经网络隐藏层的输入，通过学习上下文的信息经过多层神经元的处理，输出每个单词对应于每个标签的得分概率，获取双向LSTM神经网络的输出数据；

3)将双向LSTM神经网络的输出结果作为CRF算法的输入端；通过学习标签之间的顺序依赖信息，预测结果的正确性，得到最终的预测结果；

4)观察分词结果调整参数，优化模型性能，获得古代汉语分词模型。

将标注好的训练语料搭导入到程序中，应用神经网络对数据进行训练，生成切分词的模型，LSTM神经网络计算操作如下：

遗忘门：f^(t)＝σ(W_fh^(t-1)+U_fx^(t)+b_f) (1)

f^(t)代表了遗忘上一层隐藏细胞状态的概率，h^(t-1)为上一序列的隐藏状态，x^(t)表示本序列数据；W_f，U_f，b_f是线性关系的系数和偏倚；

输入门：i^(t)＝σ(W_ih^(t-1)+U_ix^(t)+b_i) (2)

a^(t)＝tanh(W_ah^(t-1)+U_ax^(t)+b_a) (3)

输入门由公式(2)和(3)计算组成，用两种计算结果的乘积更新细胞状态；式子涉及到的变量与遗忘门中的相同；

细胞状态：C^(t)＝C^(t-1)⊙f^(t)+i^(t)⊙a^(t) (4)

再次计算中，C^(t-1)是上一细胞状态，其他几个变量是上文的计算结果；

输出门：O^(t)＝σ(W_oh^(t-1)+U_ox^(t)+b_o) (5)

h^(t)＝o^(t)⊙tanh(C^(t)) (6)

隐藏状态更新由公式(5)和公式(6)两部分构成，并且会把当前的隐藏状态的计算结果作为输入传输给下一时刻；BiLSTM会有正向和反向的隐藏状态，将两者进行拼接操作，最初生成完整的隐藏状态

接下来使用CRF算法进行标注获取分词结果，长度为n的标签序列 y＝{y₁，y₂，y₃…y_n}，计算文本在y标签序列下的得分如下所示：Z_i为BiLSTM 的输出，A_i为CRF算法的转移矩阵；

最终计算所有的可能公式如下：

公式中y^t表示该文本可能概率的集合；在实际计算中需要对真实的标记序列的概率取log计算；

log(P(y|x))＝source(x，y)-log(∑(exp(source(x，y′)))) (9)

最终预测结果的计算公式如下所示：

CRF算法通过初始化概率和B，I，O的转移概率计算最终结果，用来计算标注概率的大小，从中选取概率最大的标注序列，降低非法预测序列出现的概率；将最正确的标签序列作为分词的结果。

抽取部分古代汉语文本使用模型进行分词处理，将对文本进行计算，生成文本的标签序列，格式如下所示。

例句1：言之者无罪，闻之者足以戒

标签序列：O O O B I O O O O O O O

例句2：武夫力而拘诸原，夫人暂而免诸国

标签序列：B I O O O O O O B I O O O B I

通过模型对未分词的古代汉语文本进行标注，从而达到分词效果。分词结果如图3所示。

最后步骤，对古代汉语的分词结果进行人为的筛选，讲错误标注的分词筛出，进行修改，将修改后正确的分词结果导入到分词词典中，并且保存分词文本到数据中，方便下次模型训练的使用。基于古代汉语的分词方法对古籍文本的分词准确率更高，对数字人文领域中古籍的分析研究更加的科学，采用构建分词词典的方式，可以有效地提高模型的训练效率，降低人员的工作难度，并且对词典采用分时间跨度构建训练语料，使得对每个朝代的分词更加的精确。

上述实施例通过构建各个朝代时期具有代表性和通用性的的种子文本库，在训练样本较少的情况下，使用基于统计的CRF算法训练模型，对现有的数据进行切分词操作，对分词的结果进行审核，存储。然后就可以对数据进行大规模的自动标注，生成深度学习训练所需要的语料集；在本实施例中使用双向的LSTM和CRF算法对生成的数据集进行训练生成古文切分词的模型。在应用的过程中，将分词结果按照时间维度进行存储，将切分好的文本存储，就可以在下次的训练时，使用古代汉语的分词模型对现有的数据进行切分词操作，使得分词的结果更加精细。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于古代汉语的分词方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的基于古代汉语的分词方法，其特征在于，所述步骤A具体包括获取古代汉语文献，按照固定的格式进行文本分词，将切分好的词导入到分词词典中，并存储该分词文本；

3.如权利要求1所述的基于古代汉语的分词方法，其特征在于，所述步骤B中，自动标注格式包括B、I和O，其中B表示切分词的首部，I表示切分词的中间部分，O表示单字成词。

4.如权利要求1所述的基于古代汉语的分词方法，其特征在于，所述步骤C中BiLSTM-CRF算法包括：

1)单词输入，进入look-up layer层，使用CBOW、skip-gram或者glove模型将输入的词转换为词向量，并且对获取的词向量进行droupout操作，避免过拟合问题；

5.如权利要求4所述的基于古代汉语的分词方法，其特征在于，所述LSTM神经网络计算操作包括：