CN113239692A - 一种基于古代汉语的分词方法 - Google Patents

一种基于古代汉语的分词方法 Download PDF

Info

Publication number
CN113239692A
CN113239692A CN202110515099.9A CN202110515099A CN113239692A CN 113239692 A CN113239692 A CN 113239692A CN 202110515099 A CN202110515099 A CN 202110515099A CN 113239692 A CN113239692 A CN 113239692A
Authority
CN
China
Prior art keywords
word segmentation
text
word
model
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110515099.9A
Other languages
English (en)
Inventor
宿鹏
杨雷
吕强
段飞虎
印东敏
顾君
张宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongfang Knowledge Network Beijing Technology Co ltd
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Original Assignee
Tongfang Knowledge Network Beijing Technology Co ltd
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongfang Knowledge Network Beijing Technology Co ltd, Tongfang Knowledge Network Digital Publishing Technology Co ltd filed Critical Tongfang Knowledge Network Beijing Technology Co ltd
Priority to CN202110515099.9A priority Critical patent/CN113239692A/zh
Publication of CN113239692A publication Critical patent/CN113239692A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Abstract

本发明公开了一种基于古代汉语的分词方法,包括从朝代维度构建分词词典和分词文本库并存储到数据库中,利用分词词典对数据库中的语料集进行分词,结合已有的分词文本进行训练语料标注;使用BiLSTM‑CRF算法对古文分词文本的数据进行模型训练;生成古代汉语的分词模型;抽取该朝代的部分古文文本,使用分词模型进行切分词操作,获取分词结果,然后与专家人工的古文分词结果做对比,判断该模型的性能与实用性,对识别结果进行审核、筛选、修正;对审核修改后的分词结果进行按照需求的维度进行存储。

Description

一种基于古代汉语的分词方法
技术领域
本发明涉及汉语切分词的分词技术领域,尤其涉及一种基于古代汉语的分词方法。
背景技术
现有随着数字人文领域研究的兴起,该领域也逐步走进人们的视野。数字人文也被称为人文计算,是一种对人文学科进行计算、研究、分析的一门交叉学科,对文本内容使用科学的方法进行计量,覆盖了人文学科的各个方向。数字人文分析的重要基础操作之一就是文本的切分词。然而现阶段,都是针对现代的文本进行切分词,但是由于很多数字人文研究涉及到古代文献的分析计量,使用现代切分词模型就会导致文本的切分错误,并且古代文献的时间跨度长达几千年,导致各个朝代的文献文本切分有所差异。如果使用一个特定的朝代进行文本切分,就会导致切分词的不准确,对后续的研究带来误差。
现有的切分词有以下方案:1、基于字符串匹配的分词算法,该方法是按照固定的策略将待分词的文本与已有的词条进行匹配、切分。按照匹配方向的不同可分为正向最大匹配和逆向最大匹配;但是该模式算法的可以移植性差;2、基于理解的切分词,该基本思想是在分词的同时进行句法和语义分析,用来消除歧义切分现象;基本分为:分词系统、语法语义系统、总控系统,但是该方法的算法复杂度高,技术也不成熟,分词速率较其他两种慢3、基于神经网络的切分词算法,是数据驱动型方法,对训练集数据质量的依赖程度高,需要对模型的进行不断的调参优化。
古代汉语分词是数字人文领域研究的一项重要基础,后续的统计分析操作都依赖于分词的准确性。由于对古文研究的人比较缺少,导致现阶段的分词系统都是针对现代文的分词研究,对于古代汉语的分词质量还比较差。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于古代汉语的分词方法,该方法采用构建不同时期的分词词典。因此,在对不同时期的古代汉语分词时,分词的结果更加准确。提高了后续研究的可靠性,并且该方法构建分词词典和分词文本可以用于模型的迭代训练。
本发明的目的通过以下的技术方案来实现:
一种基于古代汉语的分词方法,包括:
步骤A从朝代维度构建分词词典和分词文本并存储到数据库中;
步骤B使用分词词典对数据进行自动分词,将获取的分词结果和原有的分词文本合并作为新的训练语料,对训练语料进行自动标注,生成标注好的训练语料集;
步骤C将标注好的训练语料集加载到程序中,使用BiLSTM-CRF算法对古文分词文本的数据进行训练,生成古代汉语的分词模型;
步骤D抽取该朝代的部分古文文本,使用分词模型进行切分词操作,获取分词结果,与古文分词结果做对比,判断该模型的性能与实用性,对识别结果进行审核、筛选、修正;
步骤E对审核修改后的分词结果进行按照需求的维度进行存储。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
针对现有的古代汉语切分词的切分准确度不高,且训练语料不足的问题,实现了一种基于古代汉语的分词方法,该方法构建各个朝代的分词词库和分词文本的方式,可以有效的提高不同时期的古文的分词质量。使用 BiLSTM-CRF算法进行训练,生成分词模型,并且该方法可以根据词典的切分词结果进行迭代训练,提高算法分词的准确率。增加后续分析计算的可靠性,促进数字人文领域的发展。
附图说明
图1是基于古代汉语的分词方法流程图;
图2是BiLSTM-CRF算法的工作流程图;
图3是模型对古代汉语文本-兰亭集序的分词结果。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
本发明公开了基于古代汉语的分词方法研究,例如对各个时期的古文汉语文献进行分词处理,为后续的数字人文计算提供可靠的分词数据,本发明主要提出的核心操作有两个:1.解决现有的古代汉语分词的准确度不高的问题。2.采用构建多维度构建分词词典和分词文本的方式,提高算法的切分准确度。3.采用闭环的工作流程,使得模型的迭代训练,有助于提高分词的准确度。
为了降低人工标注的资源浪费以及不准确性。在获取训练数据集时,采用构建各个朝代的分词词典和分词文本,使用分词词典对未处理的古文数据进行分词处理,结果分词文本作为训练语料的备选集。
如图1所示,是基于古代汉语的分词方法,包括:
步骤1从朝代维度构建分词词典和分词文本库,
步骤2选取在分词文本库中找到相关朝代的数据作为训练语料,如果训练的语料不足则在古籍中找到相关朝代的文本,使用分词词典对数据进行自动分词,将获取的分词结果和原有的分词文本合并作为新的训练语料,对训练语料进行自动标注,生成标注好的训练语料集;
步骤3将标注好的训练语料集加载到程序中,使用BiLSTM-CRF算法对古文分词文本的数据进行训练,并通过观察训练结果,调整参数,优化分词模型,最终生成古代汉语的分词模型;
步骤4抽取该朝代的部分古文文本,使用分词模型进行切分词操作,获取分词结果,然后与专家人工的古文分词结果做对比,判断该模型的性能与实用性,对识别结果进行审核、筛选、修正;
步骤5对审核修改后的分词结果进行按照需求的维度进行存储。
上述步骤1具体包括获取古代汉语文献,按照固定的格式进行文本分词,将切分好的词导入到分词词典中,并存储该分词文本;
分词词库用于待训练语料的分词,将生成的分词文本库,用于模型迭代训练的使用。
上述步骤2中对分词进行格式标注,标注格式为:B、I和O,B表示该切分词的首部,I表示切分词的中间部分,O表示单字成词。标注示例如下所示:
例句:严重“帝高阳之苗裔兮,朕皇考曰伯庸。摄提贞于孟陬兮,惟庚寅吾以降。”。标注成训练文本后为一下格式:
帝O
高B
阳I
之O
苗B
裔I
兮O
,O
朕O
皇B
考I
曰O
伯B
庸I
。O
摄B
提I
贞O
于O
孟B
陬I
兮O
,O
惟O
庚B
寅I
吾O
以O
降O
第一列数据表示标注到的汉语文本,第二列的数据表示古代汉语文本的切词结果,以及该数据在词语中位置。在上述例句中切分成多字的词。1.高阳:高阳氏,黄帝的孙子,上古部落联盟首领。2.苗裔:子孙后代。3.摄提:为神话天皇时代创制的纪元法,是“摄提纪”、“摄提格”的简称。4.庚寅:中国干支纪法的干支之一。
如图2所述步骤C中BiLSTM-CRF算法包括:
1)单词输入,进入look-up layer层,使用CBOW、skip-gram或者glove 模型将输入的词转换为词向量,并且对获取的词向量进行droupout操作,避免过拟合问题;
2)将获取的数据结果作为双向LSTM神经网络隐藏层的输入,通过学习上下文的信息经过多层神经元的处理,输出每个单词对应于每个标签的得分概率,获取双向LSTM神经网络的输出数据;
3)将双向LSTM神经网络的输出结果作为CRF算法的输入端;通过学习标签之间的顺序依赖信息,预测结果的正确性,得到最终的预测结果;
4)观察分词结果调整参数,优化模型性能,获得古代汉语分词模型。
将标注好的训练语料搭导入到程序中,应用神经网络对数据进行训练,生成切分词的模型,LSTM神经网络计算操作如下:
遗忘门:f(t)=σ(Wfh(t-1)+Ufx(t)+bf) (1)
f(t)代表了遗忘上一层隐藏细胞状态的概率,h(t-1)为上一序列的隐藏状态,x(t)表示本序列数据;Wf,Uf,bf是线性关系的系数和偏倚;
输入门:i(t)=σ(Wih(t-1)+Uix(t)+bi) (2)
a(t)=tanh(Wah(t-1)+Uax(t)+ba) (3)
输入门由公式(2)和(3)计算组成,用两种计算结果的乘积更新细胞状态;式子涉及到的变量与遗忘门中的相同;
细胞状态:C(t)=C(t-1)⊙f(t)+i(t)⊙a(t) (4)
再次计算中,C(t-1)是上一细胞状态,其他几个变量是上文的计算结果;
输出门:O(t)=σ(Woh(t-1)+Uox(t)+bo) (5)
h(t)=o(t)⊙tanh(C(t)) (6)
隐藏状态更新由公式(5)和公式(6)两部分构成,并且会把当前的隐藏状态的计算结果作为输入传输给下一时刻;BiLSTM会有正向和反向的隐藏状态,将两者进行拼接操作,最初生成完整的隐藏状态
Figure BDA0003061625610000061
接下来使用CRF算法进行标注获取分词结果,长度为n的标签序列 y={y1,y2,y3…yn},计算文本在y标签序列下的得分如下所示:Zi为BiLSTM 的输出,Ai为CRF算法的转移矩阵;
Figure BDA0003061625610000062
最终计算所有的可能公式如下:
Figure BDA0003061625610000063
公式中yt表示该文本可能概率的集合;在实际计算中需要对真实的标记序列的概率取log计算;
log(P(y|x))=source(x,y)-log(∑(exp(source(x,y′)))) (9)
最终预测结果的计算公式如下所示:
Figure BDA0003061625610000064
CRF算法通过初始化概率和B,I,O的转移概率计算最终结果,用来计算标注概率的大小,从中选取概率最大的标注序列,降低非法预测序列出现的概率;将最正确的标签序列作为分词的结果。
抽取部分古代汉语文本使用模型进行分词处理,将对文本进行计算,生成文本的标签序列,格式如下所示。
例句1:言之者无罪,闻之者足以戒
标签序列:O O O B I O O O O O O O
例句2:武夫力而拘诸原,夫人暂而免诸国
标签序列:B I O O O O O O B I O O O B I
通过模型对未分词的古代汉语文本进行标注,从而达到分词效果。分词结果如图3所示。
最后步骤,对古代汉语的分词结果进行人为的筛选,讲错误标注的分词筛出,进行修改,将修改后正确的分词结果导入到分词词典中,并且保存分词文本到数据中,方便下次模型训练的使用。基于古代汉语的分词方法对古籍文本的分词准确率更高,对数字人文领域中古籍的分析研究更加的科学,采用构建分词词典的方式,可以有效地提高模型的训练效率,降低人员的工作难度,并且对词典采用分时间跨度构建训练语料,使得对每个朝代的分词更加的精确。
上述实施例通过构建各个朝代时期具有代表性和通用性的的种子文本库,在训练样本较少的情况下,使用基于统计的CRF算法训练模型,对现有的数据进行切分词操作,对分词的结果进行审核,存储。然后就可以对数据进行大规模的自动标注,生成深度学习训练所需要的语料集;在本实施例中使用双向的LSTM和CRF算法对生成的数据集进行训练生成古文切分词的模型。在应用的过程中,将分词结果按照时间维度进行存储,将切分好的文本存储,就可以在下次的训练时,使用古代汉语的分词模型对现有的数据进行切分词操作,使得分词的结果更加精细。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (5)

1.一种基于古代汉语的分词方法,其特征在于,所述方法包括以下步骤:
步骤A从朝代维度构建分词词典和分词文本并存储到数据库中;
步骤B使用分词词典对数据进行自动分词,将获取的分词结果和原有的分词文本合并作为新的训练语料,对训练语料进行自动标注,生成标注好的训练语料集;
步骤C将标注好的训练语料集加载到程序中,使用BiLSTM-CRF算法对古文分词文本的数据进行训练,生成古代汉语的分词模型;
步骤D抽取该朝代的部分古文文本,使用分词模型进行切分词操作,获取分词结果,与古文分词结果做对比,判断该模型的性能与实用性,对识别结果进行审核、筛选、修正;
步骤E对审核修改后的分词结果进行按照需求的维度进行存储。
2.如权利要求1所述的基于古代汉语的分词方法,其特征在于,所述步骤A具体包括获取古代汉语文献,按照固定的格式进行文本分词,将切分好的词导入到分词词典中,并存储该分词文本;
分词词库用于待训练语料的分词,将生成的分词文本库,用于模型迭代训练的使用。
3.如权利要求1所述的基于古代汉语的分词方法,其特征在于,所述步骤B中,自动标注格式包括B、I和O,其中B表示切分词的首部,I表示切分词的中间部分,O表示单字成词。
4.如权利要求1所述的基于古代汉语的分词方法,其特征在于,所述步骤C中BiLSTM-CRF算法包括:
1)单词输入,进入look-up layer层,使用CBOW、skip-gram或者glove模型将输入的词转换为词向量,并且对获取的词向量进行droupout操作,避免过拟合问题;
2)将获取的数据结果作为双向LSTM神经网络隐藏层的输入,通过学习上下文的信息经过多层神经元的处理,输出每个单词对应于每个标签的得分概率,获取双向LSTM神经网络的输出数据;
3)将双向LSTM神经网络的输出结果作为CRF算法的输入端;通过学习标签之间的顺序依赖信息,预测结果的正确性,得到最终的预测结果;
4)观察分词结果调整参数,优化模型性能,获得古代汉语分词模型。
5.如权利要求4所述的基于古代汉语的分词方法,其特征在于,所述LSTM神经网络计算操作包括:
遗忘门:f(t)=σ(Wfh(t-1)+Ufx(t)+bf) (1)
f(t)代表了遗忘上一层隐藏细胞状态的概率,h(t-1)为上一序列的隐藏状态,x(t)表示本序列数据;Wf,Uf,bf是线性关系的系数和偏倚;
输入门:i(t)=σ(Wih(t-1)+Uix(t)+bi) (2)
a(t)=tanh(Wah(t-1)+Uax(t)+ba) (3)
输入门由公式(2)和(3)计算组成,用两种计算结果的乘积更新细胞状态;式子涉及到的变量与遗忘门中的相同;
细胞状态:C(t)=C(t-1)⊙f(t)+i(t)⊙a(t) (4)
再次计算中,C(t-1)是上一细胞状态,其他几个变量是上文的计算结果;
输出门:O(t)=σ(Woh(t-1)+Uox(t)+bo) (5)
h(t)=o(t)⊙tanh(C(t)) (6)
隐藏状态更新由公式(5)和公式(6)两部分构成,并且会把当前的隐藏状态的计算结果作为输入传输给下一时刻;BiLSTM会有正向和反向的隐藏状态,将两者进行拼接操作,最初生成完整的隐藏状态
Figure FDA0003061625600000021
接下来使用CRF算法进行标注获取分词结果,长度为n的标签序列y={y1,y2,y3…yn},计算文本在y标签序列下的得分如下所示;Zi为BiLSTM的输出,Ai为CRF算法的转移矩阵;
Figure FDA0003061625600000022
最终计算所有的可能公式如下:
Figure FDA0003061625600000023
公式中yt表示该文本可能概率的集合;在实际计算中需要对真实的标记序列的概率取log计算;
log(P(y|x))=source(x,y)-log(∑(exp(source(x,y')))) (9)
最终预测结果的计算公式如下所示:
Figure FDA0003061625600000031
CRF算法通过初始化概率和B,I,O的转移概率计算最终结果,用来计算标注概率的大小,从中选取概率最大的标注序列,降低非法预测序列出现的概率;将最正确的标签序列作为分词的结果。
CN202110515099.9A 2021-05-12 2021-05-12 一种基于古代汉语的分词方法 Pending CN113239692A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110515099.9A CN113239692A (zh) 2021-05-12 2021-05-12 一种基于古代汉语的分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110515099.9A CN113239692A (zh) 2021-05-12 2021-05-12 一种基于古代汉语的分词方法

Publications (1)

Publication Number Publication Date
CN113239692A true CN113239692A (zh) 2021-08-10

Family

ID=77133883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110515099.9A Pending CN113239692A (zh) 2021-05-12 2021-05-12 一种基于古代汉语的分词方法

Country Status (1)

Country Link
CN (1) CN113239692A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN109829159A (zh) * 2019-01-29 2019-05-31 南京师范大学 一种古汉语文本的一体化自动词法分析方法及系统
CN110276052A (zh) * 2019-06-10 2019-09-24 北京科技大学 一种古汉语自动分词及词性标注一体化方法及装置
CN110489750A (zh) * 2019-08-12 2019-11-22 昆明理工大学 基于双向lstm-crf的缅甸语分词及词性标注方法及装置
CN111581964A (zh) * 2020-04-24 2020-08-25 西安交通大学 一种汉语古籍的主题分析方法
CN112307756A (zh) * 2020-09-30 2021-02-02 浙江汉德瑞智能科技有限公司 基于Bi-LSTM和字词融合的汉语分词方法
CN112364623A (zh) * 2020-11-02 2021-02-12 安阳师范学院 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法
CN112464663A (zh) * 2020-12-01 2021-03-09 小牛思拓(北京)科技有限公司 一种多特征融合的中文分词方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN109829159A (zh) * 2019-01-29 2019-05-31 南京师范大学 一种古汉语文本的一体化自动词法分析方法及系统
CN110276052A (zh) * 2019-06-10 2019-09-24 北京科技大学 一种古汉语自动分词及词性标注一体化方法及装置
CN110489750A (zh) * 2019-08-12 2019-11-22 昆明理工大学 基于双向lstm-crf的缅甸语分词及词性标注方法及装置
CN111581964A (zh) * 2020-04-24 2020-08-25 西安交通大学 一种汉语古籍的主题分析方法
CN112307756A (zh) * 2020-09-30 2021-02-02 浙江汉德瑞智能科技有限公司 基于Bi-LSTM和字词融合的汉语分词方法
CN112364623A (zh) * 2020-11-02 2021-02-12 安阳师范学院 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法
CN112464663A (zh) * 2020-12-01 2021-03-09 小牛思拓(北京)科技有限公司 一种多特征融合的中文分词方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨柳 等: "基于渐进式丰富词典的分词方法研究", 《计算机工程与应用》, pages 164 - 166 *
邱冰 等: "基于中文信息处理的古代汉语分词研究", 《微计算机信息》, pages 100 - 102 *

Similar Documents

Publication Publication Date Title
CN110532554B (zh) 一种中文摘要生成方法、系统及存储介质
CN110929030B (zh) 一种文本摘要和情感分类联合训练方法
Qiu et al. DGeoSegmenter: A dictionary-based Chinese word segmenter for the geoscience domain
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN110597997B (zh) 一种军事想定文本事件抽取语料库迭代式构建方法及装置
CN111339750B (zh) 去除停用语并预测句子边界的口语文本处理方法
CN112613273A (zh) 多语言bert序列标注模型的压缩方法及系统
CN112765952A (zh) 一种图卷积注意力机制下的条件概率联合事件抽取方法
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及系统
CN111274829A (zh) 一种利用跨语言信息的序列标注方法
CN110717341A (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
Xu et al. Sentence segmentation for classical Chinese based on LSTM with radical embedding
CN111046663B (zh) 一种中文表单的智能校正方法
CN111125378A (zh) 一种基于自动样本标注的闭环实体抽取方法
Jamtsho et al. Dzongkha word segmentation using deep learning
Bensalah et al. Arabic machine translation based on the combination of word embedding techniques
Žitko et al. Automatic question generation using semantic role labeling for morphologically rich languages
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
Zhang Research on English machine translation system based on the internet
CN113239692A (zh) 一种基于古代汉语的分词方法
CN114661900A (zh) 一种文本标注推荐方法、装置、设备及存储介质
CN113012685B (zh) 音频识别方法、装置、电子设备及存储介质
CN111159405B (zh) 基于背景知识的讽刺检测方法
Liu Research on literary translation based on the improved optimization model
Guo An automatic scoring method for Chinese-English spoken translation based on attention LSTM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination