CN109829159A - 一种古汉语文本的一体化自动词法分析方法及系统 - Google Patents

一种古汉语文本的一体化自动词法分析方法及系统 Download PDF

Info

Publication number
CN109829159A
CN109829159A CN201910085019.3A CN201910085019A CN109829159A CN 109829159 A CN109829159 A CN 109829159A CN 201910085019 A CN201910085019 A CN 201910085019A CN 109829159 A CN109829159 A CN 109829159A
Authority
CN
China
Prior art keywords
word
training
corpus
proper noun
integration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910085019.3A
Other languages
English (en)
Other versions
CN109829159B (zh
Inventor
李斌
程宁
葛四嘉
李成名
郝星月
冯敏萱
许超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Nanjing Normal University
Original Assignee
Nanjing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Normal University filed Critical Nanjing Normal University
Priority to CN201910085019.3A priority Critical patent/CN109829159B/zh
Publication of CN109829159A publication Critical patent/CN109829159A/zh
Application granted granted Critical
Publication of CN109829159B publication Critical patent/CN109829159B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种古汉语文本的一体化自动词法分析方法,包括以下步骤:采用Word2Vec模型预训练得到具有语义特征的古汉语的字向量;将历朝历代文献中出现过的信息数据加入到古籍专名数据库中形成若干专有名词词条;调整Bi‑LSTM‑CRF神经网络模型的各参数,将所述最终训练语料预处理成模型可读的形式,加载到所述神经网络模型中,不断迭代学习,并对测试语料的标注结果进行自动评价。本发明采用断句、分词、词性标注一体化的标注方法,省去了词法分析多项子任务的重复标注过程,也避免了重复标注错误的多级扩散;本发明采用深度学习模型,可以自动学习到丰富的语言特征,省去了传统机器学习中人工定制特征模板的工作;本发明所述的标注模型采用GPU硬件加速,可以大大缩短模型训练的时间,效率比传统的机器学习模型要高很多。

Description

一种古汉语文本的一体化自动词法分析方法及系统
技术领域
本发明涉及文本词法分析技术领域,具体涉及一种古汉语文本的一体化自动词法分析方法及系统。
背景技术
古籍资源众多,如何从数字化后的古籍文本中进一步提取、挖掘出更加有意义的语言知识是古汉语信息处理研究的重要任务。古汉语信息处理的基础任务是词法分析,包括自动断句、自动分词、自动词性标注及自动命名实体识别。词法分析的质量将直接影响到上层任务的效果。与现代汉语不同,古汉语的信息处理工作还处于探索阶段,利用计算机对古代汉语句读层面和词汇层面的自动处理与分析较少。
中文词法分析的研究成果主要集中在现代汉语上,无论是基于传统的机器学习模型还是新兴的深度学习技术,大部分都是以现代汉语作为研究对象。从现代汉语领域训练的自动分析模型不能简单的迁移到古籍文本的自动分析上面。
古汉语的词法分析大部分的研究都是针对某个特定的子任务来进行,比如有的学者只研究古汉语自动分词技术,有的学者重点放在古汉语的自动命名实体识别方面,有的学者专注于古汉语的自动断句研究,而且大部分学者所采用的研究方法及研究手段不尽相同,如果要完成整个古汉语的词法分析任务,需要依次完成各项子任务,这在很大程度上影响了机器处理效率,而且用机器分好的句子再进行分词以及词性标注等工作很容易造成识别错误的多级扩散,影响古文整体标注的准确率。
古汉语词法分析的带标注实验语料大部分是以短小的先秦文献或者某专书为数据集,规模较小,再加上传统机器学习模型泛化能力较弱,训练出的模型不能适应于跨时代大规模的语料标注。
发明内容
发明目的:为了克服现有技术的不足,本发明提供一种古汉语文本的一体化自动词法分析方法,该方法可以解决在古汉语上词法分析难度大、训练速度慢以及准确率低的问题,本发明还提供一种古汉语文本的一体化自动词法分析系统。
技术方案:本发明所述的古汉语文本的一体化自动词法分析方法,该方法包括以下步骤:
(1)对选取的古汉语训练语料进行预处理,所述预处理包括断句、分词和词性的一体化标注;
(2)采用Word2vec模型对所述古汉语训练语料进行字向量的预训练,得到预训练字向量;
(3)将历朝历代文献中出现过的人名、地名、书名、朝代、年号和官职信息数据加入到古籍专名数据库中形成若干专有名词词条,筛选专有名词词条加入到古汉语训练语料中,得到最终训练语料;
(4)将所述最终训练语料加载到所述神经网络模型中,与加载到Bi-LSTM-CRF神经网络模型中的所述预训练字向量进行映射,调整Bi-LSTM-CRF神经网络模型的各参数,不断迭代学习,对测试语料的标注结果进行自动评价,生成相关的日志文档。
优选的,所述步骤(2)还可采用Word2vec模型对大规模的古汉语生语料进行字向量的预训练,得到与其他字向量具有语义相似程度的固定维度的字向量。
优选的,所述步骤(1)中,一体化标注是将词性标签、分词标签以及断句标签融合,具体表示为每个字后标记其对应在词中的位置、其所代表的词的词性或者实体信息以及词性标记后的所述字是否在断句处的标记。
优选的,所述分词标签包括B、I、E、S,其中,B代表当前字占据一个多字词的词首,I代表当前字占据一个多字词的词中,E代表当前字占据一个多字词的词尾,S代表当前字是一个单字词。
优选的,所述断句标签包括L和O,其中,L代表当前字处于断句处,O代表当前字不是处在断句处。
优选的,所述步骤(3)还包括将所述专有名词词条与所述步骤(1)中已标注语料进行匹配计算,统计每个所述专有名词词条的置信度,并将置信度低的专有名词词条筛选出。
优选的,所述匹配计算具体包括:
(31)统计每个专有名词词条作为纯字符串在所述已标注语料中出现的次数,记为A;
(32)统计每个专有名词词条作为一个词且标注为专有名词词性的词例在所述已标注语料中出现的次数,记为B;
(33)统计每个专有名词作为一个独立运用的词且词性不属于专有名词的词例在所述已标注语料中出现的次数,记为C;
(34)当A=B=C=0时,该专有名词词条的置信度为0,否则
若该专有名词词长等于1且B/A=1,则该专有名词词条的置信度为1,否则为-1;
若该专有名词词长大于1:如果B/A=1,且C/B<1,则该专有名词词条的置信度为1;如果B/A<0.1或C/B>1,该专有名词词条的置信度为-1;如果0.1<B/A<1且C/B<1,则该专有名词词条的置信度为0。
另一方面,本发明还提供古汉语文本的一体化自动词法分析系统,包括:
训练语料预处理模块,用于对选取的古汉语训练语料进行预处理,所述预处理包括断句、分词和词性的一体化标注;
字向量预训练模块,用于采用Word2vec模型对所述古汉语训练语料进行字向量的预训练,得到预训练字向量;
专名数据库构建模块,用于将历朝历代文献中出现过的人名、地名、书名、朝代、年号和官职信息数据加入到古籍专名数据库中形成若干专有名词词条,将筛选后的专有名词词条加入到训练语料中,得到最终训练语料;
词法分析模块,用于将所述最终训练语料加载到所述神经网络模型中,与加载到Bi-LSTM-CRF神经网络模型中的预训练字向量进行映射,调整Bi-LSTM-CRF神经网络模型的各参数,不断迭代学习,对测试语料的标注结果进行自动评价,生成相关的日志文档。
优选的,所述字向量预训练模块,还可采用Word2vec模型对大规模的古汉语生语料进行字向量的预训练,得到与其他字向量具有语义相似程度的固定维度的字向量。
优选的,所述专名数据库构建模块包括词条匹配模块,用于将所述专有名词词条与所述训练语料预处理模块中已标注语料进行匹配计算,统计每个所述专有名词词条的置信度,并将置信度低的专有名词词条筛选出。
有益效果:本发明与现有技术相比,其显著优点是:1、本发明对字向量采用Word2Vec模型进行预训练,标注精度较高,并融合专名数据库,获取丰富的命名实体信息特征;2、本发明采用深度学习模型,可以自动学习到丰富的语言特征,省去了传统机器学习中人工定制特征模板的工作;3、该模型采用GPU硬件加速,可以大大缩短模型训练的时间,效率比传统的机器学习模型要高很多;4、本发明首先对训练语料进行标注,后采用的神经网络模型实现一体化自动标注,省去了词法分析多项子任务的重复标注过程;5、本发明所述的系统操作简单,只需指定文件路径,选择好训练模块或者标注模块即可运行。
附图说明
图1为本发明所述的先秦文献《左传》的书影印版示例图;
图2为本发明一实施例所述的古汉语语句一体化标记后的示例图;
图3为本发明一实施例所述的流程图;
图4为本发明一实施例所述的深度学习模型应用于古汉语一体化标注的架构图。
具体实施方式
实施例1
如图1所示,我国古代文献用繁体字书写,且绝大部分古文是没有断句信息的。这给古汉语的阅读和研究带来很大的不便。
表1采用OCR(光学字符识别)技术对图1扫描所得到的文本如下所示:
针对这种电子文献进行一体化的词法分析,具体任务内容如下:
(1)对文本进行自动断句;
(2)对文本进行自动分词;
(3)判断词的词性,如名词、动词等;
(4)识别出古文中人名、地名等命名实体。
本发明采用一体化分析方法将上述任务同步进行,自动标注结果样例如图2所示。每一个词用“/”隔开,后面是该词的词性标记,每一个断句处用“|”隔开。
如图3所示,本发明首先对选取的古汉语训练语料进行预处理,所述预处理包括断句、分词和词性的一体化标注。
选取古汉语语料,中华文明有着数千年的悠久历史,从有文字记载的夏朝开始,我国历史经历了十几个主要朝代。各时代的古籍文本卷帙浩繁,而且所呈现出来的特点不尽相同。为了使模型能够胜任不同时代、不同体裁的文本标注工作,需要大规模跨时代精加工语料的支持。该技术方案具体根据先秦、秦汉、魏晋南北朝、隋唐五代、宋辽金、元、明、清这几个时间范围来选取古籍文本。各时代的文本数据量相对均衡,而且在体裁上保证多样,最重要的是各个时代的文本具备其所属时代的典型特征,各时代、各体裁的文本区分度强。
对选取的古汉语语料进行加工,在文本上附加分词、词性、断句标记。
表2词性分类和对应的词性标签
对加工好的训练语料进行预处理。就分词任务而言,传统的基于词表的分词方法,通过查询词典来帮助完成最终的字串切分决策。与此相反,字标注方法则认为每个字在词中都占据一个确定的构词位置。分词任务的字标注方法多采用B、I、E、S四种标记,其中,B代表当前字占据一个多字词的词首,I代表当前字占据一个多字词的词中,E代表当前字占据一个多字词的词尾,S代表当前字是一个单字词。在得到字标注序列后经过转换就可以得到句子的分词结果。如:
字标注:九B月E,S晉B惠I公E卒S。S懷B公E立S,S
转换后:九月,晉惠公卒。懷公立,
分词与词性一体化的字标注方法是将词性标签与分词标签融合,每个字对应其在词中的位置以及其所代表的词的词性或者实体信息。语料预处理格式如下:
九B-t月E-t,S-w晉B-nr惠I-nr公E-nr卒S-v。S-w懷B-nr
公E-nr立S-v,S-w
每个字分别标注分词信息标记和词性信息标记,中间用“-”连接,如上句“晉B-nr惠I-nr公E-nr”,说明“晉”是一个人名的第一个字符,“惠”是一个人名的中间一个字符,“公”是一个人名的最后一个字符,这样就将“晉惠公”这样一个词切分开且识别为人名,人名的实体标签用“nr”来表示。这样对于模型来说,面对的问题将是一个分类问题,即将每一个字,分到特定的标签类型下。
基于上述语料处理方式,考虑到断句任务也可看做序列标注的任务,因此该技术方案采用断句、分词、词性三种信息融合在一起的语料处理方式,将融合断句信息的语料处理成以下形式:
九B-t-O月E-t-L晉B-nr-O惠I-nr-O公E-nr-O卒S-v-L懷B-nr-O公E-nr-O立S-v-L
如果语料中的某个字处于断句处,如上句中的“月”、“卒”、“立”,则在其词性标记后面打上标签“L”,并将其后面的标点符号去除。若某个字并不是处在断句处,则在其词性标记后面打上标签“O”。
至于标点细分的语料标注格式,只需要将断句标记“L”替换成该字后面实际的标点符号即可,用标点符号的首字母代替。如上述的“月”之后有个逗号,可以用“月E-t-dh”这样的细分标点标记代替“月E-t-L”这样的断句标记:
九B-t-O月E-t-dh晉B-nr-O惠I-nr-O公E-nr-O卒S-v-jh懷B-nr-O公E-nr-O立S-v-dh。
其次,基于大规模的古汉语生语料预训练字向量,预训练的字向量拥有丰富的语义信息特征,将其加入到词法分析模型当中作为模型的输入,可以大大提高古文词法分析任务的精度。Word2vec模型可以在大规模无标注的语料上快速获得优质的字向量。
Word2vec模型是基于分布式假说的,即假设词的语义由其上下文决定,上下文相似的词,其语义也相似。因此它可以找出词与词之间的相似度关系,意义相近的词在向量空间中距离更近。对于古文来说,单字词占优势,训练的字向量可以较好的反映各词之间的语义关系。
Word2Vec使用了包括嵌入层、隐藏层、输出层在内的三层神经网络来实现,并且采用负采样等优化算法来提升训练速度。这样在语料规模较大的情况下,Word2vec依然能以极快的速度得到优质的字向量。在模型训练完成以后,就得到了训练语料中所有不同的字固定维度的字向量,维度手动调节,一般为50-300之间。通常用余弦相似度来衡量两个字向量之间语义相似程度:设字向量A=(A1,A2,...,An),B=(B1,B2,...,Bn),余弦相似度的公式如下:
其中,i表示向量的维数,Ai表示A所代表的这个字第i维的具体数值。
表3语义相似度计算结果示例
Word2vec训练出来的字向量,对语义的刻画较为深刻,可以方便地将其作为嵌入层加入Bi-LSTM-CRF神经网络模型中。
采用大规模生语料进行字向量的训练,是优选的方式,之所以用更大规模进行字向量的预训练,是因为规模大了,向量之间的语义相似程度会拟合的越好。直接采用训练语料进行字向量的预训练也是可以的。
接着,将历朝历代文献中出现过的人名、地名、书名、朝代、年号和官职信息数据加入到古籍专名数据库中形成若干专有名词词条,将筛选后的专有名词词条加入到训练语料中,得到最终训练语料。
在优选实施例中,构建古籍专名数据库,并作为训练语料计入到原训练语料中。在不构建专名数据库的情况下,神经网络模型同样可以对实体信息进行自动标注。由于真实语料中出现的命名实体相对较少,深度学习模型很难学习到相关特征,为了提高模型对命名实体识别的效果,该技术方案通过构建一个古籍专名数据库,将其作为训练样本加入到训练语料当中,这样机器会自动学习到更多的实体特征,从而较好地进行实体信息标注。古籍专名数据库包括历朝历代文献中出现过的人名、地名、书名、朝代、年号、官职等信息,数据项设计如下表:
表4古籍专名数据库数据项设计
<u>字段名</u> <u>数据类型</u> <u>允许非空</u> <u>自动递增</u> <u>备注</u>
<u>ID</u> <u>int</u> <u>NO</u> <u>是</u> <u>专名id</u>
<u>Dyn</u> <u>varchar</u> <u>NO</u> <u></u> <u>所属朝代</u>
<u>Word</u> <u>varchar</u> <u>YES</u> <u></u> <u>专名名称</u>
<u>Tag</u> <u>varchar</u> <u>YES</u> <u></u> <u>专名标签</u>
<u>Type</u> <u>varchar</u> <u>NO</u> <u></u> <u>专名类型</u>
古籍专名数据库初步构建之后,词条信息较为庞杂,需要对古籍专名的质量进行检验,该技术方案提出一种面向计算机处理的专名置信度计算的方法。专名数据库所搜集的一些语法功能较活跃的一些词,即既可以充当专名,又可以充当其它词类,以及成词概率较低的一些词,即虽然是一个词,但这个词经常拆分成其他不同的词,如:“何求”,文献中对此人有收录,但该词在古汉语中经常会切分为“何/求”,不用作人名,需要进行专名置信程度的统计计算。如果一个词的成词概率较低,或者不经常作为专名出现,那么这个词作为专名的置信程度较低;如果一个词在古代汉语中成词概率较高,而且该词经常作为专名出现,那么这个词作为专名置信程度一般;如果一个词只能作为专名出现,且结合紧密,那么这个词作为专名的置信程度极高。
古籍专名置信度的计算将所有专名与带分词标注和词性标注的语料库中的词或者字串进行匹配计算,统计出每个专名的置信程度,用0、1、-1来表示置信程度的高低。
具体统计方法如下:
(1)将专名词条与标注好词性的语料进行匹配。在原专名数据库中新增三列数据项:
A专名作为纯字符串在语料中出现的次数;
B专名作为一个词且标注为专名词性的词例在语料中出现的次数;
C专名作为一个词且词性不属于专名的词例在语料中出现的次数,统计的是这样的词不标为专名的数量。
比如“吉祥”一词,可以是形容词,也可以是人名:
<1>恢恢/a六合/n,/w成/v吉祥/a之/u宅/n。/w(《高僧傳卷第四》)
<2>菩薩/nr謂/v吉祥/nr曰/v:/w“/w欲/v得/v草/n坐/v,/w地/n則/d大/a動/v。(《經律異相卷第四·現跡成道》)。
(2)根据新得出的三列词频信息计算词语置信程度并将统计结果新增至数据库“grade”字段中:
当A、B、C三列字段统计结果均为0时,grade属性为0。当三列字段统计结果有不为0的情况,则进行如下计算:
若专名词长等于1且B/A=1,则grade属性为1,否则为-1;若词长大于1:如果B/A=1,且C/B<1,则grade属性为1;如果B/A<0.1或C/B>1,则grade属性为-1;如果0.1<B/A<1且C/B<1,则grade属性为0。
这样就将数据库中的专名词条划分层次,将不适合作为专名来处理的词条筛选出来,不仅可以改善专名词典的收词质量,而且可以更好地服务于计算机命名实体识别的任务,将符合条件的专名数据库中的词条加入训练语料中,得到最终训练语料。
最后,如图4所示,以上文中的部分古句“孟子卒繼室以聲子”为例,词法分析模型采用Bi-LSTM-CRF(双向长短时记忆网络-条件随机场)神经网络模型结构,并使用字标签的标注方法进行自动标注。Bi-LSTM可以从最终标注语料中自动学习特征,CRF可以对学习到的特征进行建模,给每一个字选择一个基于整句最优的字标注标签,最后用viterbi(维特比)算法获得整个句子最优的标签序列,一次性完成断句、分词、词性标注、命名实体识别标注任务。
优选的,将训练好的字向量作为嵌入层加入Bi-LSTM,让模型能够利用到文字间的语义特征。L代表当前字符上文,R代表当前字符下文,C代表当前时刻的上下文特征,将Bi-LSTM的输出输入至CRF层,通过CRF输出当前整个标签序列最优的标签序列。每个标签由字在词中的位置、词性以及断句标示符号组成,如:卒S-v-L:S表示单字词、v表示词性为动词、L表示该字处于句末。训练语料中的文字可以和字向量表进行映射,取出模型所需的字向量。
神经网络模型需要调整的参数被称为超参数,即为人工调节而非在训练中得到的参数,主要包括神经网络的层数、隐藏层的节点数、LSTM的时间步长(time steps)等。对于Bi-LSTM-CRF这一模型结构而言,Bi-LSTM的层数对精度基本没有影响,因此将模型的隐藏层数即Bi-LSTM的层数设为1。一般而言隐藏节点数越大模型的精度越高,训练速度越慢,在序列标注任务中通常取200-600的节点数。为了让Bi-LSTM对整个句子序列进行建模,每个时间步读入一个字,总的时间步数应当大于句长。因文言文的句长较短,100的时间步长基本可以涵盖任何句子,所以将time steps设置为100。模型的优化采用在序列标注问题中效果较好的“Adam”算法。对于神经网络来说,较少的训练数据容易带来过拟合的问题,因此采用Dropout方法来降低过拟合,其算法原理为:在一次训练时的迭代中,对每一层中的神经元(总数为N)以概率P随机剔除,用余下的(1-P)×N个神经元所构成的网络来训练本次迭代中的数据。这样可以弱化各个特征之间由于数据量太小导致产生的过多的相互作用,缓解了过拟合。
设置好模型参数之后,通过加载训练语料和测试语料,根据设定的参数进行特征的迭代学习,并且会在测试语料上动态地生成一列机器自动标注的结果,而且系统会对测试语料的标注结果进行自动评价,生成相关的日志文档。模型训练完成后,会生成相应的模型文件,通过加载模型文件和参数配置文件可以实现对外部语料的自动标注。
最后是测试结果,模型对测试语料进行自动标注后,对标注结果进行错误分析,发现标注错误类型和原因,然后进行系统优化,包括模型超参数的调节、字向量的维度及规模调整、训练语料的重新选定等。
模型的自动标注采用序列到序列的思路,输入为整篇古文,输出直接是该篇古文的一体化标注结果。用户只需设定好待标注古文和古文标注结果的计算机存储路径,然后执行系统的自动标注模块即可。
本发明是对古籍文本自动断句、分词、词性标注、命名实体识别一体化的标注方法。
古汉语的词法分析大部分的研究都是针对某个特定的子任务来进行,大部分学者所采用的研究方法及研究手段不尽相同,如果要完成整个古汉语的词法分析任务,需要依次完成各项子任务,这在很大程度上影响了机器处理效率,而且用机器分好的句子再进行分词以及词性标注等工作很容易造成识别错误的多级扩散,影响古文整体标注的准确率。
一体化的方法在语料的预处理上,采用字标注的手段,将每一个字对应上了字在词中的位置标记、词性标记,包括实体标记以及断句标记。这样机器在学习特征的时候,兼顾了分词、词性、断句等多重特征,进一步可以学习到各个特征之间的相互关系,也就可实现对生语料一体化的自动标注。
除此之外,训练速度快,深度学习模型采用GPU硬件加速,可以大大缩短模型训练的时间,效率比传统的机器学习模型要高很多。
此外,另一方面,本发明还提供一种古汉语文本的一体化自动词法分析系统,包括:
训练语料预处理模块,用于对选取的古汉语训练语料进行预处理,所述预处理包括断句、分词和词性的一体化标注;
字向量预训练模块,用于采用Word2vec模型对所述古汉语训练语料进行字向量的预训练,得到预训练字向量;
专名数据库构建模块,用于将历朝历代文献中出现过的人名、地名、书名、朝代、年号和官职信息数据加入到古籍专名数据库中形成若干专有名词词条,将筛选后的专有名词词条加入到训练语料中,得到最终训练语料;
词法分析模块,用于将所述最终训练语料加载到所述神经网络模型中,与加载到Bi-LSTM-CRF神经网络模型中的预训练字向量进行映射,调整Bi-LSTM-CRF神经网络模型的各参数,不断迭代学习,对测试语料的标注结果进行自动评价,生成相关的日志文档。
在其中一个实施例中,所述字向量预训练模块,还可采用Word2vec模型对大规模的古汉语生语料进行字向量的预训练,得到与其他字向量具有语义相似程度的固定维度的字向量。
在其中一个实施例中,所述一体化标注是将词性标签、分词标签以及断句标签融合,具体表示为每个字后标记其对应在词中的位置、其所代表的词的词性或者实体信息以及词性标记后的所述字是否在断句处的标记。
在其中一个实施例中,所述分词标签包括B、I、E、S,其中,B代表当前字占据一个多字词的词首,I代表当前字占据一个多字词的词中,E代表当前字占据一个多字词的词尾,S代表当前字是一个单字词。
在其中一个实施例中,所述专名数据库构建模块包括词条匹配模块,用于将所述专有名词词条与所述训练语料预处理模块中已标注语料进行匹配计算,统计每个所述专有名词词条的置信度,并将置信度低的专有名词词条筛选出。
本系统是在前文所述的一体化自动词法分析方法基础上实现的,详细技术方案与方法相似,在此不再赘述。

Claims (10)

1.一种古汉语文本的一体化自动词法分析方法,其特征在于,该方法包括以下步骤:
(1)对选取的古汉语训练语料进行预处理,所述预处理包括断句、分词和词性的一体化标注;
(2)采用Word2vec模型对所述古汉语训练语料进行字向量的预训练,得到预训练字向量;
(3)将历朝历代文献中出现过的人名、地名、书名、朝代、年号和官职信息数据加入到古籍专名数据库中形成若干专有名词词条,筛选专有名词词条加入到古汉语训练语料中,得到最终训练语料;
(4)将所述最终训练语料加载到所述神经网络模型中,与加载到Bi-LSTM-CRF神经网络模型中的所述预训练字向量进行映射,调整Bi-LSTM-CRF神经网络模型的各参数,不断迭代学习,对测试语料的标注结果进行自动评价,生成相关的日志文档。
2.根据权利要求1所述的古汉语文本的一体化自动词法分析方法,其特征在于,所述步骤(2)还可采用Word2vec模型对大规模的古汉语生语料进行字向量的预训练,得到与其他字向量具有语义相似程度的固定维度的字向量。
3.根据权利要求1或2所述的古汉语文本的一体化自动词法分析方法,其特征在于,所述步骤(1)中,一体化标注是将词性标签、分词标签以及断句标签融合,具体表示为每个字后标记其对应在词中的位置、其所代表的词的词性或者实体信息以及词性标记后的所述字是否在断句处的标记。
4.根据权利要求3所述的古汉语文本的一体化自动词法分析方法,其特征在于,所述分词标签包括B、I、E、S,其中,B代表当前字占据一个多字词的词首,I代表当前字占据一个多字词的词中,E代表当前字占据一个多字词的词尾,S代表当前字是一个单字词。
5.根据权利要求4所述的古汉语文本的一体化自动词法分析方法,其特征在于,所述断句标签包括L和O,其中,L代表当前字处于断句处,O代表当前字不是处在断句处。
6.根据权利要求1或2所述的古汉语文本的一体化自动词法分析方法,其特征在于,所述步骤(3)还包括将所述专有名词词条与所述步骤(1)中已标注语料进行匹配计算,统计每个所述专有名词词条的置信度,并将置信度低的专有名词词条筛选出。
7.根据权利要求6所述的古汉语文本的一体化自动词法分析方法,其特征在于,所述匹配计算具体包括:
(31)统计每个专有名词词条作为纯字符串在所述已标注语料中出现的次数,记为A;
(32)统计每个专有名词词条作为一个词且标注为专有名词词性的词例在所述已标注语料中出现的次数,记为B;
(33)统计每个专有名词作为一个独立运用的词且词性不属于专有名词的词例在所述已标注语料中出现的次数,记为C;
(34)当A=B=C=0时,该专有名词词条的置信度为0,否则
若该专有名词词长等于1且B/A=1,则该专有名词词条的置信度为1,否则为-1;
若该专有名词词长大于1:如果B/A=1,且C/B<1,则该专有名词词条的置信度为1;如果B/A<0.1或C/B>1,该专有名词词条的置信度为-1;如果0.1<B/A<1且C/B<1,则该专有名词词条的置信度为0。
8.一种根据权利要求1-7任一项所述的古汉语文本的一体化自动词法分析方法实现的古汉语文本的一体化自动词法分析系统,其特征在于,包括:
训练语料预处理模块,用于对选取的古汉语训练语料进行预处理,所述预处理包括断句、分词和词性的一体化标注;
字向量预训练模块,用于采用Word2vec模型对所述古汉语训练语料进行字向量的预训练,得到预训练字向量;
专名数据库构建模块,用于将历朝历代文献中出现过的人名、地名、书名、朝代、年号和官职信息数据加入到古籍专名数据库中形成若干专有名词词条,将筛选后的专有名词词条加入到训练语料中,得到最终训练语料;
词法分析模块,用于将所述最终训练语料加载到所述神经网络模型中,与加载到Bi-LSTM-CRF神经网络模型中的预训练字向量进行映射,调整Bi-LSTM-CRF神经网络模型的各参数,不断迭代学习,对测试语料的标注结果进行自动评价,生成相关的日志文档。
9.根据权利要求8所述的古汉语文本的一体化自动词法分析系统,其特征在于,所述字向量预训练模块,还可采用Word2vec模型对大规模的古汉语生语料进行字向量的预训练,得到与其他字向量具有语义相似程度的固定维度的字向量。
10.根据权利要求8所述的古汉语文本的一体化自动词法分析系统,其特征在于,所述专名数据库构建模块包括词条匹配模块,用于将所述专有名词词条与所述训练语料预处理模块中已标注语料进行匹配计算,统计每个所述专有名词词条的置信度,并将置信度低的专有名词词条筛选出。
CN201910085019.3A 2019-01-29 2019-01-29 一种古汉语文本的一体化自动词法分析方法及系统 Active CN109829159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910085019.3A CN109829159B (zh) 2019-01-29 2019-01-29 一种古汉语文本的一体化自动词法分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910085019.3A CN109829159B (zh) 2019-01-29 2019-01-29 一种古汉语文本的一体化自动词法分析方法及系统

Publications (2)

Publication Number Publication Date
CN109829159A true CN109829159A (zh) 2019-05-31
CN109829159B CN109829159B (zh) 2020-02-18

Family

ID=66862813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910085019.3A Active CN109829159B (zh) 2019-01-29 2019-01-29 一种古汉语文本的一体化自动词法分析方法及系统

Country Status (1)

Country Link
CN (1) CN109829159B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276052A (zh) * 2019-06-10 2019-09-24 北京科技大学 一种古汉语自动分词及词性标注一体化方法及装置
CN110705211A (zh) * 2019-09-06 2020-01-17 中国平安财产保险股份有限公司 文本重点内容标记方法、装置、计算机设备及存储介质
CN110738045A (zh) * 2019-10-25 2020-01-31 北京中献电子技术开发有限公司 一种面向神经网络机器翻译的英文词法分析方法及系统
CN110909549A (zh) * 2019-10-11 2020-03-24 北京师范大学 对古汉语进行断句的方法、装置以及存储介质
CN111062217A (zh) * 2019-12-19 2020-04-24 江苏满运软件科技有限公司 语言信息的处理方法、装置、存储介质及电子设备
CN111079447A (zh) * 2020-03-23 2020-04-28 深圳智能思创科技有限公司 一种面向中文的预训练方法及系统
CN111160026A (zh) * 2019-12-18 2020-05-15 北京明略软件系统有限公司 一种模型训练方法、装置、实现文本处理的方法及装置
CN111324742A (zh) * 2020-02-10 2020-06-23 同方知网(北京)技术有限公司 一种数字人文知识图谱的构建方法
CN111738024A (zh) * 2020-07-29 2020-10-02 腾讯科技(深圳)有限公司 实体名词标注方法和装置、计算设备和可读存储介质
CN112364623A (zh) * 2020-11-02 2021-02-12 安阳师范学院 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法
CN112613316A (zh) * 2020-12-31 2021-04-06 北京师范大学 一种生成古汉语标注模型的方法和系统
CN112800760A (zh) * 2019-11-14 2021-05-14 云拓科技有限公司 权利要求书的元件名词及元件名词所属位置自动得出设备
CN112906366A (zh) * 2021-01-29 2021-06-04 深圳力维智联技术有限公司 基于albert的模型构建方法、装置、系统及介质
CN113095082A (zh) * 2021-04-15 2021-07-09 湖南四方天箭信息科技有限公司 一种基于多任务模型进行文本处理的方法、装置、计算机装置及计算机可读取存储介质
CN113239692A (zh) * 2021-05-12 2021-08-10 同方知网数字出版技术股份有限公司 一种基于古代汉语的分词方法
CN113505248A (zh) * 2021-07-14 2021-10-15 朱本军 文档中古汉语时间的转换方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229611A (zh) * 2017-05-18 2017-10-03 大连大学 一种基于词对齐的历史典籍分词方法
CN107451114A (zh) * 2017-06-28 2017-12-08 广州尚恩科技股份有限公司 一种古汉语语义分析方法及其系统
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法
CN108509419A (zh) * 2018-03-21 2018-09-07 山东中医药大学 中医药古籍文献分词和词性标引方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229611A (zh) * 2017-05-18 2017-10-03 大连大学 一种基于词对齐的历史典籍分词方法
CN107451114A (zh) * 2017-06-28 2017-12-08 广州尚恩科技股份有限公司 一种古汉语语义分析方法及其系统
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法
CN108509419A (zh) * 2018-03-21 2018-09-07 山东中医药大学 中医药古籍文献分词和词性标引方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
顾孙炎: ""基于深度神经网络的中文命名实体识别研究"", 《万方学位论文》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276052A (zh) * 2019-06-10 2019-09-24 北京科技大学 一种古汉语自动分词及词性标注一体化方法及装置
CN110705211A (zh) * 2019-09-06 2020-01-17 中国平安财产保险股份有限公司 文本重点内容标记方法、装置、计算机设备及存储介质
CN110909549A (zh) * 2019-10-11 2020-03-24 北京师范大学 对古汉语进行断句的方法、装置以及存储介质
CN110738045A (zh) * 2019-10-25 2020-01-31 北京中献电子技术开发有限公司 一种面向神经网络机器翻译的英文词法分析方法及系统
CN112800760A (zh) * 2019-11-14 2021-05-14 云拓科技有限公司 权利要求书的元件名词及元件名词所属位置自动得出设备
CN111160026A (zh) * 2019-12-18 2020-05-15 北京明略软件系统有限公司 一种模型训练方法、装置、实现文本处理的方法及装置
CN111160026B (zh) * 2019-12-18 2023-09-26 北京明略软件系统有限公司 一种模型训练方法、装置、实现文本处理的方法及装置
CN111062217A (zh) * 2019-12-19 2020-04-24 江苏满运软件科技有限公司 语言信息的处理方法、装置、存储介质及电子设备
CN111062217B (zh) * 2019-12-19 2024-02-06 江苏满运软件科技有限公司 语言信息的处理方法、装置、存储介质及电子设备
CN111324742A (zh) * 2020-02-10 2020-06-23 同方知网(北京)技术有限公司 一种数字人文知识图谱的构建方法
CN111324742B (zh) * 2020-02-10 2024-01-23 同方知网数字出版技术股份有限公司 一种数字人文知识图谱的构建方法
CN111079447A (zh) * 2020-03-23 2020-04-28 深圳智能思创科技有限公司 一种面向中文的预训练方法及系统
CN111738024A (zh) * 2020-07-29 2020-10-02 腾讯科技(深圳)有限公司 实体名词标注方法和装置、计算设备和可读存储介质
CN111738024B (zh) * 2020-07-29 2023-10-27 腾讯科技(深圳)有限公司 实体名词标注方法和装置、计算设备和可读存储介质
CN112364623A (zh) * 2020-11-02 2021-02-12 安阳师范学院 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法
CN112613316A (zh) * 2020-12-31 2021-04-06 北京师范大学 一种生成古汉语标注模型的方法和系统
CN112906366B (zh) * 2021-01-29 2023-07-07 深圳力维智联技术有限公司 基于albert的模型构建方法、装置、系统及介质
CN112906366A (zh) * 2021-01-29 2021-06-04 深圳力维智联技术有限公司 基于albert的模型构建方法、装置、系统及介质
CN113095082A (zh) * 2021-04-15 2021-07-09 湖南四方天箭信息科技有限公司 一种基于多任务模型进行文本处理的方法、装置、计算机装置及计算机可读取存储介质
CN113239692A (zh) * 2021-05-12 2021-08-10 同方知网数字出版技术股份有限公司 一种基于古代汉语的分词方法
CN113505248B (zh) * 2021-07-14 2023-09-01 朱本军 文档中古汉语时间的转换方法和装置
CN113505248A (zh) * 2021-07-14 2021-10-15 朱本军 文档中古汉语时间的转换方法和装置

Also Published As

Publication number Publication date
CN109829159B (zh) 2020-02-18

Similar Documents

Publication Publication Date Title
CN109829159A (zh) 一种古汉语文本的一体化自动词法分析方法及系统
CN107729309B (zh) 一种基于深度学习的中文语义分析的方法及装置
CN109284352B (zh) 一种基于倒排索引的评估类文档不定长词句的查询方法
CN105718586B (zh) 分词的方法及装置
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN101079025B (zh) 一种文档相关度计算系统和方法
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN111444721A (zh) 一种基于预训练语言模型的中文文本关键信息抽取方法
CN111914558A (zh) 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN110807328A (zh) 面向法律文书多策略融合的命名实体识别方法及系统
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN112307153B (zh) 一种产业知识库自动构建方法、装置及存储介质
CN111144119B (zh) 一种改进知识迁移的实体识别方法
CN114416942A (zh) 一种基于深度学习的自动化问答方法
CN110851601A (zh) 基于分层注意力机制的跨领域情感分类系统及方法
CN112364623A (zh) 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法
CN116070602B (zh) 一种pdf文档智能标注与抽取方法
CN109213998A (zh) 中文错字检测方法及系统
CN112784602A (zh) 基于远程监督的新闻情感实体抽取方法
CN112380868A (zh) 一种基于事件三元组的信访目的多分类装置及其方法
CN111444704A (zh) 基于深度神经网络的网络安全关键词抽取方法
CN111666374A (zh) 一种在深度语言模型中融入额外知识信息的方法
CN111428502A (zh) 一种面向军事语料的命名实体标注方法
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant