CN111581964A

CN111581964A - 一种汉语古籍的主题分析方法

Info

Publication number: CN111581964A
Application number: CN202010333811.9A
Authority: CN
Inventors: 王志; 张妍; 惠维; 杨钊
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2020-08-25

Abstract

本发明提供了一种汉语古籍的主题分析方法，获取古汉语语料库中的古汉语文本，对获得的语料库文本进行预处理、分词，之后构建主题模型，对已经完成分词工作的古汉语文本进行训练，进而得到古汉语的文本‑主题分布和主题‑词分布，进行进一步的主题分析；本发明在对古汉语文本的分词上采用基于词典结合半监督学习的BILSTM‑CRF模型的分词方法，一定程度上解决了古汉语的跨领域问题，即古代汉语在不同朝代部分词的含义是不同的，也能有效利用大量存在的无标注数据，降低模型训练对标注数据的依赖，降低人工标注数据的成本；同时与基于词典的分词结合起来，两相互补，解决了古汉语分词中的未登录词识别问题。

Description

一种汉语古籍的主题分析方法

技术领域

本发明涉及用计算机进行人文领域的研究，尤其涉及一种汉语古籍的主题分析方法。

背景技术

随着大数据时代的来临以及互联网的飞速发展，以文本资源为首的各种资源呈现爆炸式增长，如何从纷繁复杂、杂乱无章的文本资源中挖掘有潜在价值的、用户感兴趣的主题信息，也是十分的困难。为此自然语言处理技术的飞速发展，越来越多的问文学者关注利用计算机辅助研究的方法，研究人员钻研了各种算法并设计开发了各种工具以便用户能够对这些纷繁复杂的文本集进行管理，从而能够快速地、全方面地帮助用户找到用户需要的内容。使用计算机技术辅助分析文本材料，已然成为国内外的研究热点之一。

在数字化文本资源开发方面，国际国内都展开了大量的比较成熟的开发。美国的HathiTrust(HT)数字图书馆(hathitrust.org)，将馆藏书目进行数字化扫描。通过光学字符识别软件(OCR)，将藏书内容页的图片转换成文本，已经扫描的收藏包括1400多万册，其中中文书多达50多万册。尽管因为规模宏大，HT的数字页面其图片和OCR表征会包含未被纠正的扫描错误，但HT数字图书馆为数字人文提供了多重的分析可能性(Kowalycz etal.2016)。同时，有重要历史和文化意义的文本语料库有了学术利用性更优化的数字版本。这些项目需要大量人工进行标记的过程，如TEI(Text Encoding Initiative)和OWL(WebOntology Language)，以获得计算机可以识别的语义信息。

在这个基础上，基于主题模型的文本分析已经发展的十分成熟，但都是针对现代汉语。并且现有的分词算法中，一些主流的算法大多是针对现代汉语分词，对于古汉语文本中的异形字、通假字、经常出现的一词多义等情况，纯粹的基于词频或词向量的方法，无法将词语表达清楚，需要结合具体的语境对该词进行语义分析。

发明内容

现有的算法多是针对现代汉语进行主题分析研究，而基于古代汉语与现代汉语在词法词义上的区别，本发明提供一种汉语古籍的主题分析方法，主要应用于古汉语的分析研究中，解决如何高效地阅读古汉语文献文本，实现古汉语的分词以及文本的可视化分析，并从阅读中获得有价值的信息等问题。

本发明是通过以下技术方案来实现：

一种汉语古籍的主题分析方法，包括以下步骤：

步骤1、获取古汉语数据集；

步骤2、对古汉语数据集进行清洗；

步骤3、基于词典结合半监督BILSTM-CRF的分词方法对清洗后的数据集进行分词；

步骤4、构建主题模型，采用分词之后的古汉语文本对主题模型进行训练，根据训练后的主题模型对古汉语的主题进行分析。

优选的，步骤1中采用Python Scrapy进行古汉语数据的获取。

优选的，步骤2中，数据集清洗的方法具体为，对数据集中的异体字以及不可辨别字进行清洗，对异体字进行人工统一格式，对古汉语的注释和翻译进行删除，利用正则清除数字和符号。

优选的，步骤3中，所述分词方法具体如下：

对清洗后的数据集进行字向量的预训练，得到预训练字向量，采用半监督学习的BILSTM-CRF作为分词模型，采用预训练字向量对分词模型进行训练，分词模型输出分词结果res1；

构建古汉语词典，将清洗后的数据集利用古汉语词典进行基于词典的分词，其输出分词结果res2；

当分词结果res1和res2相同，选择任意一个分词结果作为最终的分词结果；

当分词结果res1和res2不相同，检测res1中的每个词是否都在词典中，如果有不在字典中的词，再判断该词是否为未登录词，如果是未登录词，则将未登录词加入词典，重新进行基于词典的分词，如果不存在未登录词，比较res1和res2，寻找分词粒度小的一个作为分词结果加入最终分词结果集。

优选的，采用Word2vec模型对所述清洗后的数据集进行字向量的预训练，得到预训练字向量。

优选的，所述分词模型为三层结构的BILSTM模型，其训练方法如下：

步骤3.1、对预训练字向量进行标注；

步骤3.2、第一层BILSTM采用未标注的数据集进行训练，第二层BILSTM采用标注的数据集进行训练；

步骤3.3、将模型的第一层BILSTM的输出向量与第二层BILSTM的输出向量拼接，然后将拼接的向量经过一个全连接层后作为第三层BILSTM的输入，得到发射矩阵X，在经过CRF层，计算最大似然概率得到转移矩阵Y，对发射矩阵X和转移矩阵Y进行解码，得到分词结果。

优选的，步骤4中，首先，基于LDA构建主题模型，并根据分词结果对其训练，训练后的主题模型输出主题-词分布和文本-主题分布；

然后，确定文本-主题分布以及主题-词分布之间的相似度，完成主题分析。

优选的，采用JS散度和相对熵进行文档相似度的相似度计算。

优选的，采用JSD表征文本-主题分布以及主题-词分布分别的相似度；

所述JSD的计算表达式如下：

其中，P和Q分别代表不同的主题文本-主题分布或不同的主题-词分布。

与现有技术相比，本发明具有以下有益的技术效果：

本发明提供了一种汉语古籍的主题分析方法，获取电子化古汉语典籍库中的古汉语文本，对获得的语料库文本进行预处理、分词，之后构建主题模型，对已经完成分词工作的古汉语文本进行训练，进而得到古汉语的文本-主题分布和主题-词分布，进行进一步的主题分析；本发明在对古汉语文本的分词上采用基于词典结合半监督学习的BILSTM-CRF模型的分词方法，一定程度上解决了古汉语的跨领域问题，即古代汉语在不同朝代部分词的含义是不同的，也能有效利用大量存在的无标注数据，降低模型训练对标注数据的依赖，降低人工标注数据的成本；同时与基于词典的分词结合起来，两相互补，解决了古汉语分词中的未登录词识别问题。

附图说明

图1为本发明分析方法的总体结构图；

图2为本发明古汉语文本中《孟子》卷一的影印版示例图；

图3为本发明分词方法的流程图；

图4为本发明单层BILSTM-CRF的结构图；

图5位本发明前两层BILSTM的输出结构图；

图6为本发明模型训练之后，不同k值的主题聚类的结果示意图；

图7为本发明模型在不同参数下训练结果的热力图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

参阅图1，一种汉语古籍的主题分析方法，包括以下步骤：

S1：获取古汉语数据集。

具体的，古汉语文献是繁体的，且绝大部分是没有断句的，如图2所示的采用光学字符识别(OCR)技术对古汉语典籍进行扫描得到的文本。相应就有了很多的古汉语文本的电子化古籍库，借助Python Scrapy程序进行网络爬虫，爬取电子化古籍库，将爬取结果存入数据库，开发和解读含有18000多个中国古代文本的数字语料库，“汉典”古籍语料库，该语料库包括中国古代哲学典籍、史书、传记以及文学作品等，爬取结果如表1所示；

表1电子化古籍库

S2：对爬取的数据集进行清洗，具体方法如下：

数据集下载完成之后，对其中存在的不可辨别字进行删除，对异体字标记，采用手动参照异体字字典来人工统一格式；针对不可辨别字的处理，在这块选择忽略，因为在下述LDA模型的训练之前会进行一个高低频词的去除，将附有的便于阅读和分析的大量注释和现代文翻译，这些非原文献的部分除去，利用正则来清除数字及一些特殊符号等。

S3：利用基于词典结合半监督BILSTM-CRF的分词方法实现对古汉语文本的分词，分词流程图如图3所示，具体过程如下：

S31：首先是古汉语的半监督学习的BILSTM-CRF的分词，参阅图4(单层BILSTM-CRF)所示；

S32：采用Word2vec模型对所述古汉语训练语料进行字向量的预训练，得到预训练字向量；

在本发明中，具体采用Word2vec中的CBOW来训练得到词向量模型。Word2vec是google公司开发的无监督学习算法，通过训练，将词变成一个几百维的向量，这种向量可以捕捉词语之间的语义相关性，CBOW和Skip-gram是Google用来在大数据上训练Wordvec采用的两种常见的方法。本发明选择采用CBOW方法。

S33：采用三层的BILSTM作为分词模型的网络层；

其中，LSTM(Long Short-Term Memory)长短期记忆网络，是一种时间递归神经网络，被大量运用在命名体识别、分词等自然语言处理领域，具有记忆信息的能力，为了解决经典循环神经网络模型存在的梯度消失和梯度爆炸等问题应运而生。介于单向LSTM的局限性：只记忆过去的信息，无法考虑未来的上下文信息。因此便产生了BILSTM(Bidirectional,Long-Short Term momory neural network,BILSTM)神经网络，BILSTM既能保存前面的上下文信息，又能考虑未来的上下文信息。

本发明用三层BILSTM-CRF模型进行分词模型的训练。其中，BILSTM的两层LSTM是独立的，它将前向LSTM得到的语义向量与后向LSTM得到的语义向量在输出层进行拼接，得到最终的输出。

S34：第一层BILSTM采用未标注的数据集进行训练，第二层BILSTM采用标注的数据集进行训练；

在本发明中，采用BMES四词位标注法对预训练字向量进行标注，如表2所示。标签B为词汇的开始，表示开始词；标签M表示中间词；标签E为词汇的结尾，表示结束词；标签S表示单字词。

表2词位标注集

S35：在分词模型训练过程中，将模型的第一层BILSTM的输出向量与第二层BILSTM的输出作拼接，然后将拼接的向量经过一个全连接层后作为分词模型的第三层BILSTM的输入。如图5所示；

在BILSTM的运算过程中，前向LSTM表征过去的上下文信息，后向LSTM表征未来的上下文信息，第一层BILSTM的前向LSTM输出为h_ft，后向LSTM输出为h_bt，将二者进行拼接即为第一层BILSTM的输出，即为h_1t1＝[h_1ft，h_1bt]，同理，第二层BILSTM的输出为h_2t1＝＝[h_2ft，h_2bt]，将第一层输出在与第二层的输出进行拼接，在经过一个全连接层后作为第三层BILSTM的输入。

S36：经过分词模型的三层BILSTM之后会得到发射矩阵X，在经过CRF层，计算最大似然概率得到转移矩阵Y；

CRF(Conditional Random Fields)条件随机场，是一种无向图模型，常用于序列标注，是对最大熵模型和隐马尔科夫模型的改进，解决了最大熵模型局部最优和标记偏置问题，避免了隐马尔科夫模型输出独立性假设无法考虑上下文特征以及无法进行特征选择的缺点。

S37：使用维特比算法对发射矩阵X和转移矩阵Y进行解码，得到最终分词结果。

维特比算法是是一种动态规划算法用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列，即求最大概率路径。在CRF求解过程中，首先会想到的是穷举法，将所有可能的路径的列出来，但是这样时间复杂度会很高。选择维特比算法实质上就是用动态规划解隐马尔科夫模型和条件随机场的预测问题，求最大概率的路径对应的状态序列。

S38：构建古汉语词典，采用MSSEG算法实现基于词典的分词。将基于词典的分词方法和半监督学习的BILSTM-CRF模型结合起来，进行古汉语的分词，将半监督学习的BILSTM-CRF模型的分词结果记为res1，再将基于词典的分词结果记为res2，比较res1和res2，如果两个分词结果相等，就将其中任意一个加入最终的分词结果集；

如果两个结果序列不等，检测res1中的每个词是否都在词典中，如果有不在字典中的词，再判断这次是否为未登录词，此处未登录词的判别，主要是基于语法规则进行合并，然后通过百度验证。如果是未登录词，则将未登录词加入词典，重新进行基于词典的分词，因为相比于现代汉语，古汉语词语的语料库数量是定量的，所以可以借用这种方法来完善词典；如果不存在未登录词，比较res1和res2，寻找分词粒度小的一个作为分词结果加入最终分词结果集。因为古汉语的语料库是一定的，不会再增加，因此在完善了分词词典之后，后面可直接进行基于词典的分词，提高分词效率和准确率。

S4：构建主题模型，基于主题模型对分词之后的古汉语文本进行训练；

所述步骤S4的具体过程：

S41：构建基于LDA的主题模型；

LDA主题模型降低文档的维度，从语义层面分析文档。LDA将文档最初作为“词袋”(bags of words)，忽略所有语法结构，以及句子或文档中的词序信息，而且文档最初仅仅是所有的词所出现的频次。通过将每个文档重新表征为多主题的混合，主题建模目标是在这些“词袋”中发现潜在(隐藏)的结构。在利用LDA模型给出文档主题后，可以再根据这些主题分布来进行主题聚类或是文本分类，进一步分析文本。利用LDA进行主题建模，训练后获得：

主题-词分布。每个主题被表征为在语料库中所有词的一个全概率分布，也就是说，每一个词都被分配了在每一个主题上的一个概率，一个主题下所有词的概率之和就等于1；

文本-主题分布。每个文档被表征为主题的全概率分布，即，每个主题被分配一个在每个文档中的概率，一个文档内所有主题的概率加和同样等于1。当新加入文本时训练当前文文本，利用Jensen-Shannon距离表示文本间的距离并实现分类。

S42：文本-主题分布以及主题-词分布之间分别计算JSD，用来表征文档之间的相似度。

JSD(Jensen-Shannon Distance)，又称JS距离，用于衡量两个概率分布P和Q差异。与KL散度不同的是，JSD计算的概率分布差异是对称的，即JSD(P||Q)＝JSD(Q||P)。P和Q分别代表两个概率分布，则P和Q之间JSD的计算公式为：

S5：训练结果的可视化；

将语料库从词语组成转换成主题组成后，采用多种远距离阅读分析方法与可视化的方法。根据文本的概率主题分布，使用JS散度(Jensen-Shannon)和相对熵(KLD)进行文档相似度的计算。

本发明使用ISOMAP，将高维信息降维处理处理，将文本之间的关系直观的表现出来，以图的方式从新的层面对文本间的关系进行理解，从语义的角度细致地分析文本之间的主题异同，也通过可视化的方法，显示重要文本集的关键主题的权重，与其中语义关联，计算文本集之间的共有主题。如图6所示。

在该图中，不同大小的圆表示不同k值下的topic，颜色表示的是聚类的结果，圆圈与圆圈之间的距离表示了它们之间的一个相关性的高低，越近，说明相关性越高，即两个topic越相似。使训练结果更加形象具体，便于理解研究。

S6：评估模型的鲁棒性，过程如下：

S61：对同一语料库，设置同样的参数，训练两次，分别是model1和model2，取model1和model2中权重最大的前20个topic，计算它们之间的JSD，并绘制热力图，用颜色的深浅来表示两个主题的相似度，颜色越深说明越相似。如图7所示。

在该图中，观察发现对角线上的两两Topic之间相似度更高一些，计算发现权重前20的Topic在整个语料库中的比重都超过了50％，能表明模型趋于稳定，实验具有一定的说明性。

本发明提供了一种汉语古籍的主题分析方法，其特征是包括获取古汉语语料库中的古汉语文本，对获得的语料库文本进行预处理、分词，之后构建主题模型，对已经完成分词工作的古汉语文本进行训练，对训练结果进行可视化分析。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种汉语古籍的主题分析方法，其特征在于，包括以下步骤：

步骤1、获取古汉语数据集；

步骤2、对古汉语数据集进行清洗；

2.根据权利要求1所述的一种汉语古籍的主题分析方法，其特征在于，步骤1中采用Python Scrapy进行古汉语数据的获取。

3.根据权利要求1所述的一种汉语古籍的主题分析方法，其特征在于，步骤2中，数据集清洗的方法具体为，对数据集中的异体字以及不可辨别字进行清洗，对异体字进行人工统一格式，对古汉语的注释和翻译进行删除，利用正则清除数字和符号。

4.根据权利要求1所述的一种汉语古籍的主题分析方法，其特征在于，步骤3中，所述分词方法具体如下：

5.根据权利要求4所述的一种汉语古籍的主题分析方法，其特征在于，采用Word2vec模型对所述清洗后的数据集进行字向量的预训练，得到预训练字向量。

6.根据权利要求4所述的一种汉语古籍的主题分析方法，其特征在于，所述分词模型为三层结构的BILSTM模型，其训练方法如下：

步骤3.1、对预训练字向量进行标注；

7.根据权利要求1所述的一种汉语古籍的主题分析方法，其特征在于，步骤4中，首先，基于LDA构建主题模型，并根据分词结果对其训练，训练后的主题模型输出主题-词分布和文本-主题分布；

8.根据权利要求7所述的一种汉语古籍的主题分析方法，其特征在于，采用JS散度和相对熵进行文档相似度的相似度计算。

9.根据权利要求7或8任一项所述的一种汉语古籍的主题分析方法，其特征在于，采用JSD表征文本-主题分布以及主题-词分布分别的相似度；

所述JSD的计算表达式如下：