CN111738002A

CN111738002A - 基于Lattice LSTM的古文领域命名实体识别方法和系统

Info

Publication number: CN111738002A
Application number: CN202010454177.4A
Authority: CN
Inventors: 刘秀磊; 陈若愚; 刘旭红; 崔丹丹; 李臻
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-10-02

Abstract

本发明公开了一种基于Lattice LSTM的古文领域命名实体识别方法、系统、电子设备及可读存储介质，其中，该方法包括：采用甲言分词对预训练古文数据进行分词；采用word2vec模型对分词后的预训练古文数据进行预训练得到预训练的字词向量；将数据集数据和所述预训练的字词向量输入至Lattice LSTM模型中进行训练，得到优化后的Lattice LSTM模型；将待识别古文数据输入至优化后的Lattice LSTM模型进行命名实体识别。该方法采用甲言(jiayan)分词工具进行古文数据的分词，分词效果较好且符合语境，提高了古文分词的准确性；利用word2vec训练古文字、词向量，通过大量的文本获得质量更高的字词向量；将字向量和词向量共同作为Lattice LSTM模型的输入，提升了古文领域数据实体识别的效果。

Description

基于Lattice LSTM的古文领域命名实体识别方法和系统

技术领域

本发明涉及命名实体识别技术领域，具体涉及到一种基于Lattice LSTM的古文领域命名实体识别方法、系统、电子设备及可读存储介质。

背景技术

命名实体识别(Named Entity Recognition，简称NER)的主要任务是识别出待处理文本中预定义好的命名实体，是知识图谱、问答系统、句法分析等自然语言处理任务中基础而关键的任务，推动了自然语言处理技术走向实用化。

古文数据凝聚了古人圣贤的智慧，是了解历史、传承中华文化、弘扬民族精神的重要途径，是现代汉语学习和发展的基础。研究古文领域的命名实体识别任务，挖掘古文中准确的实体信息，将给古文领域带来与时俱进的重要意义。古文领域数据在语法、句子长度等方面和现代文相比都具有一定程度上的差异，具有言文分离、行文简练、陌生难懂等特点，针对古文领域数据研究具有不可小觑的难度。然而，现有技术中的中文命名实体识别方法适用于现代汉语的命名实体识别，不能很好地适用于古文领域的命名实体识别，针对古文的命名实体识别研究甚少；因此，提供一种适用于古文领域的命名实体识别方法成为亟待解决的技术问题。

发明内容

有鉴于此，本发明实施例提供了一种基于Lattice LSTM的古文领域命名实体识别方法、系统、电子设备及可读存储介质，以适用于古文领域的命名实体识别。

为此，本发明实施例提供了如下技术方案：

根据第一方面，本发明实施例提供了一种基于Lattice LSTM的古文领域命名实体识别方法，包括：采用甲言分词对预训练古文数据进行分词；采用word2vec模型对分词后的预训练古文数据进行预训练得到预训练的字词向量；将数据集数据和所述预训练的字词向量输入至Lattice LSTM模型中进行训练，得到优化后的Lattice LSTM模型；将待识别古文数据输入至优化后的Lattice LSTM模型进行命名实体识别。

可选地，将数据集数据和所述预训练的字词向量输入至Lattice LSTM模型中进行训练，得到优化后的Lattice LSTM模型的步骤中，包括：获取数据集数据；对所述数据集数据进行标注得到标注数据；将标注数据按照预设数值比例进行划分，得到训练集数据、验证集数据和测试集数据；将所述训练集数据和所述预训练的字词向量输入至Lattice LSTM模型中进行训练，得到优化后的Lattice LSTM模型；将所述测试集数据输入至优化后的Lattice LSTM模型中进行评估，得到评估结果。

可选地，对所述数据集数据进行标注得到标注数据的步骤中，包括：获取预设实体种类信息，所述预设实体种类信息包括人名、地名、官职名和朝代名中的至少之一；根据所述预设实体种类信息对数据集数据采用BIO标注体系进行标注得到标注数据。

可选地，所述标注数据包括B-PER代表人名首字、I-PER代表人名非首字，B-LOC代表地名首字、I-LOC代表地名非首字，B-POS代表官职名首字、I-POS代表官职名非首字，B-DYN代表朝代名首字、I-DYN 代表朝代名非首字，O代表该字不属于命名实体的一部分。

可选地，所述测试集数据为人工修正后的数据，所述评估结果包括精确率、召回率和F1值。

可选地，所述甲言分词为字符级隐马尔可夫分词；所述word2vec模型为Skip-gram模型，所述Skip-gram模型的词向量的长度为300，迭代次数为8。

可选地，所述优化后的Lattice LSTM模型的最优超参数为字向量的维度300、lattie词向量维度300、LSTM层数1、学习率初始值0.015、学习率的衰减值0.05、字嵌入层随机丢弃率0.5、lattice网络随机丢弃率0.5。

根据第二方面，本发明实施例提供了一种基于Lattice LSTM的古文领域命名实体识别系统，包括：分词模块，用于采用甲言分词对预训练古文数据进行分词；预训练字词向量模块，用于采用word2vec模型对分词后的预训练古文数据进行预训练得到预训练的字词向量；模型优化模块，用于将数据集数据和所述预训练的字词向量输入至Lattice LSTM模型中进行训练，得到优化后的Lattice LSTM模型；命名实体识别模块，用于将待识别古文数据输入至优化后的Lattice LSTM模型进行命名实体识别。

可选地，所述模型优化模块包括：获取单元，用于获取数据集数据；第一处理单元，用于对所述数据集数据进行标注得到标注数据；第二处理单元，用于将标注数据按照预设数值比例进行划分，得到训练集数据、验证集数据和测试集数据；第三处理单元，用于将所述训练集数据和所述预训练的字词向量输入至Lattice LSTM模型中进行训练，得到优化后的Lattice LSTM模型；第四处理单元，用于将所述测试集数据输入至优化后的LatticeLSTM模型中进行评估，得到评估结果。

可选地，所述第一处理单元包括：获取子单元，用于获取预设实体种类信息，所述预设实体种类信息包括人名、地名、官职名和朝代名中的至少之一；处理子单元，用于根据所述预设实体种类信息对数据集数据采用BIO标注体系进行标注得到标注数据。

可选地，所述优化后的Lattice LSTM模型的最优超参数为字向量的维度300、lattie词向量维度300、LSTM层数1、学习率初始值0.015、学习率的衰减值0.05、字嵌入层随机丢弃率0.5、lattice网络随机丢弃率 0.5。

根据第三方面，本发明实施例提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的计算机程序，计算机程序被至少一个处理器执行，以使至少一个处理器执行上述第一方面任意一项所述的基于 Lattice LSTM的古文领域命名实体识别方法。

根据第四方面，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使计算机执行上述第一方面任意一项所述的基于Lattice LSTM的古文领域命名实体识别方法。

本发明实施例技术方案，具有如下优点：

本发明实施例提供了一种基于Lattice LSTM的古文领域命名实体识别方法、系统、电子设备及可读存储介质，其中，该方法包括：采用甲言分词对预训练古文数据进行分词；采用word2vec模型对分词后的预训练古文数据进行预训练得到预训练的字词向量；将数据集数据和所述预训练的字词向量输入至Lattice LSTM模型中进行训练，得到优化后的Lattice LSTM模型；将待识别古文数据输入至优化后的Lattice LSTM模型进行命名实体识别。该方法采用甲言(jiayan)分词工具进行古文数据的分词，分词效果较好且符合语境，提高了古文分词的准确性；利用 word2vec训练古文字、词向量，通过大量的文本获得质量更高的字词向量，字向量用于表征字符序列信息，词向量用于表征词序列信息；将字符序列信息和词序列信息共同作为Lattice LSTM模型的输入，提升了古文领域数据实体识别的效果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基于Lattice LSTM的古文领域命名实体识别方法的一个具体示例的流程图；

图2为本发明实施例HMM结构图的一个具体示例的示意图；

图3为本发明实施例Skip-gram模型结构的一个具体示例的示意图；

图4为本发明实施例基于Lattice LSTM的古文领域命名实体识别方法的另一个具体示例的流程图；

图5为本发明实施例基于Lattice LSTM的古文领域命名实体识别方法的另一个具体示例的流程图；

图6为本发明实施例基于Lattice LSTM的古文领域命名实体识别方法的实体类别的一个具体示例的示意图；

图7为本发明实施例基于Lattice LSTM的古文领域命名实体识别方法的数据集标注的一个具体示例的示意图；

图8为本发明实施例LSTM模型结构的一个具体示例的示意图；

图9为本发明实施例Lattice LSTM模型结构的一个具体示例的示意图；

图10为本发明实施例Lattice LSTM模型结构图的一个具体示例的示意图；

图11为本发明实施例现代文词向量和古文词向量对F1值的影响的一个具体示例的示意图；

图12为本发明实施例BiLSTM-CRF和Lattice LSTM两种模型对F1 值的影响的一个具体示例的示意图；

图13为本发明实施例基于Lattice LSTM的古文领域命名实体识别系统的一个具体示例的框图；

图14为本发明实施例的电子设备的示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

古代人名结构形式多样。古代人名由“名”、“字”、“号”组成，“字”通常为“名”的解释及补充。其中，“名”与“字”有意义相同、相辅、相反等多种不同关系，例如唐代诗人白居易字乐天，“名”与“字”意义相辅，因“乐天”故能“居易”。

古代地名分布特点复杂。古代地名承载着古代文化的地域特征和民族特征，其主要有三方面：①反映古代交通；②反映古代军屯；③反映古代经济文化。在古代，为了官员等往来人员休息、更换马匹和传递公文，而建立驿站和邮铺，所以“铺”、“驿”、“堡”、“站”、“台”等字多用于反映交通的地名；古代王朝为了保卫边疆，巩固统治，从而设立军屯戍所，“所”、“哨”、“都”等字多用于反映古代军屯的地名；生肖地名、墟字反映古代集市，例如陶渊明《归园田居》中“暖暖远人村，依依墟里烟”，铜鼓地名、窑址地名，古代陶瓷也兴旺，产生许多与陶瓷相关的地名，例如河北磁县、安徽寿县瓦埠等。

朝代命名规则不一。朝代命名有五点：①源于部落名称；②源于创建者原有封号；③源于创建者政权统治；④源于宗族关系；⑤寓意吉祥。例如秦朝，源于古部落；魏，源于曹操的原有封号“魏公”。

古代官职级别种类繁多。国君级别为皇帝；中央级别官职有丞相、太尉、御史大夫，职务分别为行政、监察和秘书，经过演变，后出现三省六部制度，三省：①中书省，②门下省，③尚书省；六部：①吏部，②户部，③礼部，④兵部，⑤刑部，⑥工部，六部长官为尚书，副长官为侍郎；地方级别有太守、刺史等；品级官职有太师、太傅等；武官有将军、督统、都司、守备等。

探索古文领域实体识别的研究不仅要创新模型方法，还要提高分词的准确性，把握好实体边界的划分，才能使得古文领域实体识别取得良好效果。目前，针对古文的命名实体识别研究甚少，古文领域数据暂时无法获得已经做好标注和完成分词的语料，同时也无特定古文领域数据命名实体识别的模型。基于此，本实施例中提出了一种基于LatticeLSTM 的古文领域命名实体识别方法，该方法是基于Lattice LSTM模型算法，以《四库全书》为内容，针对古文领域数据的命名实体识别，有助于组织和挖掘古文领域数据的相关实体信息，提升古文领域数据实体识别的效果。

基于此，本发明实施例提供了一种基于Lattice LSTM的古文领域命名实体识别方法，如图1所示，该方法可以包括步骤S1-S4。

步骤S1：采用甲言分词对预训练古文数据进行分词。

作为示例性的实施例，预训练古文数据包括《四库全书》中集部、经部、史部和子部四个方面，仅以此为例，不以此为限；在其它实施例中，可根据需要合理设置，数据量越丰富，后续得到的预训练字词向量越准确。

目前针对现代汉语的分词工具较多，效果也很成熟，例如Jieba分词、THULAC分词等，但以上分词方法对古汉语分词的效果并不佳，所以现代汉语分词方法并不适用于古汉语分词，通过对古文分词方法的调研以及分词结果的最终评估，本实施例中选取甲言(jiayan)分词对古文本数据进行分词。甲言(jiayan)分词的分词效果如表1所示，通过分词结果可知，其对古文数据进行分词的分词效果较好。

表1甲言(jiayan)分词结果

作为示例性的实施例，甲言分词为字符级隐马尔可夫分词，即利用字符级隐马尔可夫模型对古汉语进行自动分词。隐马尔科夫模型(Hidden Markov Model，HMM)是一种统计模型，它通过观测数据能够预测原始数据形态，实质上根据可观察状态序列预测隐藏状态序列，HMM模型结构如图2所示，其中，上方圆形节点代表状态变量，下方圆形节点代表观测变量，当前状态变量Z_n只与相邻的前一个状态变量Z_n-1有关，通过隐状态的状态序列<Z₁,Z₂,...,Z_n+1>得到显状态的观测序列 <X₁,X₂,...,X_n+1>。

步骤S2：采用word2vec模型对分词后的预训练古文数据进行预训练得到预训练的字词向量。

词向量(word embedding)是将单词从一维空间映射成更低维度的稠密向量，即单词通过向量表示，形成向量空间，将文字信息嵌入到数学空间中，可用作底层输入表示，属于词嵌入层。另外，训练字、词向量的语料要与研究领域数据紧密结合，数据量丰富且全面，本实施例中训练字、词向量的语料包括《四库全书》中集部、经部、史部和子部四个方面，数据量较丰富。

作为示例性的实施例，由于word2vec模型训练速度快、使用广泛、效果较好，所以本实施例采用word2vec模型训练古文数据的字、词向量，字向量用于表征字符序列信息，词向量用于表征词序列信息。其中， word2vec模型训练字、词向量有两种模型可以选择，分别为CBOW模型和Skip-gram模型，其中心思想是一个词的含义可用其周围词来表示。具体地，在本实施例中采用Skip-gram模型，Skip-gram模型结构如图3 所示，包括输入层(Input)、映射层(Projection)和输出层(Output)，通过一个词的词向量预测出上下文词的词向量，即通过中心词w(t)预测周围词w(t-2)、w(t-1)…w(t+2)。

具体地，将词向量的长度设置为300，迭代次数为8，采用skip-gram 模型，调用genism工具包进行word2vec训练，得到预训练的字、词向量。

作为示例性的实施例，步骤S2之后还包括将字、词向量模型进行存储。具体地，将训练好的字、词向量模型保存，便于后续对古文领域的命名实体识别。

步骤S3：将数据集数据和预训练的字词向量输入至Lattice LSTM模型中进行训练，得到优化后的Lattice LSTM模型。

作为示例性的实施例，数据集数据为《四库全书》原文中的子部，数据格式为csv文件，通过python对《四库全书》内容进行批量读取，之后对数据集数据进行标注。将标注好的数据集数据和预训练的字词向量输入至Lattice LSTM模型中进行模型优化训练，得到优化后的Lattice LSTM模型。

步骤S4：将待识别古文数据输入至优化后的Lattice LSTM模型进行命名实体识别。

作为示例性的实施例，将待识别古文数据输入至优化后的Lattice LSTM模型中进行命名实体识别，得到命名实体识别结果。

通过上述步骤，基于《四库全书》数据集，研究古文领域数据的命名实体识别技术。该方法采用甲言(jiayan)分词工具进行古文数据的分词，分词效果较好且符合语境，提高了古文分词的准确性；利用word2vec 训练古文字、词向量，通过大量的文本获得质量更高的字词向量，字向量用于表征字符序列信息，词向量用于表征词序列信息；之后，将字符序列信息和词序列信息共同作为Lattice LSTM模型的输入，提升了古文领域数据实体识别的效果。

作为示例性的实施例，步骤S3将数据集数据和预训练的字词向量输入至LatticeLSTM模型中进行训练，得到优化后的Lattice LSTM模型的步骤中，如图4所示，具体可包括步骤S31-S35。

步骤S31：获取数据集数据。

作为示例性的实施例，本实施例中数据集数据的来源为《四库全书》中的子部，其数据格式为csv文件，通过python对《四库全书》内容进行批量读取，本实施例仅作示意性描述，并不以此为限。

步骤S32：对数据集数据进行标注得到标注数据。

作为示例性的实施例，对数据集数据采用BIO标注体系(B-begin， I-inside，O-outside)进行数据标注，本实施例对此仅作示意性说明，并不以此为限；在其它实施例中，也可采用其它标注方式对数据集数据进行标注，如BIOES标注(B-begin，I-inside，O-outside，E-end，S-single) 等。

具体地，步骤S32对数据集数据进行标注得到标注数据的步骤中，如图5所示，包括步骤S321-S322。

步骤S321：获取预设实体种类信息，预设实体种类信息包括人名、地名、官职名和朝代名中的至少之一。

作为示例性的实施例，本实施例中预设实体种类信息包括人名、地名、官职名和朝代名四大类；当然，在其它实施例中，预设实体种类信息可根据需要合理设置，本实施例对此不作任何限制。

步骤S322：根据预设实体种类信息对数据集数据采用BIO标注体系进行标注得到标注数据。

作为示例性的实施例，通过python对《四库全书》内容进行批量读取，结合人名、地名、朝代和官职四类词典对数据进行标注。

作为示例性的实施例，标注数据包括B-PER代表人名首字、I-PER 代表人名非首字，B-LOC代表地名首字、I-LOC代表地名非首字，B-POS 代表官职名首字、I-POS代表官职名非首字，B-DYN代表朝代名首字、 I-DYN代表朝代名非首字，O代表该字不属于命名实体的一部分。

数据集数据采用BIO标注体系(B-begin，I-inside，O-outside)，其标注的实体种类如图6所示，主要包括人名、地名、官职名和朝代名四大类，标注完成的数据集如图7所示。

步骤S33：将标注数据按照预设数值比例进行划分，得到训练集数据、验证集数据和测试集数据。

作为示例性的实施例，测试集数据为人工修正后的数据。标注好的数据集数据语料规模共240万字，由于机器标注存在一定的问题，因此，在机器标注的基础上，人工对10万字进行修正，减少了基于词典方法的误差，本实施例中训练集数据采用机器标注的语料，测试集数据采用人工修正的语料。

作为示例性的实施例，预设数值比例为训练集数据占比70％，验证集数据占比15％，测试集数据占比15％。具体地，数据集中训练集数据约占总数据集的70％，验证集数据约占总数据集的15％，测试集数据约占总数据集的15％；本实施例对此仅作示意性说明，不以此为限，在其它示例性实施例中，可根据实际需要合理设置预设数值比例。

关于数据集中各个实体类别的数量见表2。

表2数据集中实体数量(单位：个)

实体种类	训练集	验证集	测试集
				人名	20042	4259	3375
地名	26300	6035	6985
				朝代名	325	30	54
官职名	7116	1834	1184
				实体总数	53783	12158	11598

步骤S34：将训练集数据和预训练的字词向量输入至Lattice LSTM 模型中进行训练，得到优化后的Lattice LSTM模型。

作为实施例性的实施例，优化后的Lattice LSTM模型的最优超参数为字向量的维度300、lattie词向量维度300、LSTM层数1、学习率初始值0.015、学习率的衰减值0.05、字嵌入层随机丢弃率0.5、lattice网络随机丢弃率0.5。

长短期记忆网络(Long Short-Term Memory，简称LSTM)的基本单元包括遗忘门、输入门、输出门和细胞状态。细胞状态保证模型训练过程中信息的流通，会保存长期历史信息；遗忘门、输入门和输出门实现对信息量进行控制，图8为LSTM单元结构图。

①遗忘门，决定从细胞状态中丢弃哪些信息、保留哪些信息。首先读取h_t-1和x_t，然后输出0～1的概率值给每个细胞状态C_t-1中的数字。1 表示全部保留，0表示全部丢弃。

f_t＝σ(W_f·[h_t-1，x_t]+b_f)

其中，h_t-1为前一个细胞的输出，x_t为当前细胞的输入，σ为sigmod 函数，W_f为线性关系的系数，b_f为线性关系的偏倚。

②输入门，决定将细胞状态加入多少新信息。具体实现包含两个部分：第一，sigmoid层决定更新哪部分细胞状态。第二，tanh层生成备选用来更新细胞状态的向量，联合以上两步，完成对细胞状态的更新。

i_t＝σ(W_i，[h_t-1，x_t]+b_i)

其中，W_i、W_C为线性关系的系数；b_i、b_C为线性关系的偏倚。

③输出门，确定输出最终值，此值会基于细胞状态通过筛选得到。第一，通过运行sigmoid层确定输出细胞状态的哪个部分。第二，将细胞状态通过tanh函数处理，将得到的值和sigmoid门的输出相乘，最终输出确定值。

O_t＝σ(W_O·[h_t-1，x_t]+b_O)

h_t＝O_t*tanh(C_t)

其中，W_O为线性关系的系数，b_O为线性关系的偏倚，C_t为当前的细胞状态。

Lattice LSTM将字序列和词序列信息同时编码，作为模型的输入，利用门结构对信息的流动进行控制。相比基于字符级的编码，Lattice LSTM充分利用词信息，丰富了表达；相比基于词级的编码，充分利用潜在的词信息，选取语境中所有可能的词语，不仅仅依赖于固定的分词结果，Lattice LSTM有效降低了分词错误给识别结果带来的影响。

图9为Lattice LSTM结构，该模型的主干是基于字符的LSTM，与基本的LSTM的区别是该模型中LSTM的每个cell内部对信息的处理方式不同。图中阴影cell代表句子中的潜在词信息，与字符级cell互相连接。

同与基于字向量的LSTM模型相比，

的计算不仅运用了字向量，还运用了词语序列

通常而讲，每个词向量可表示为

计算方法如下式所示。

其中，e^w为词向量矩阵，除此之外，定义word cell

记录

的递归状态，

计算方法如下公式所示。

其中，

代表输入门，

代表遗忘门。由于

的存在，隐含层中

的值会被由更多不同的信息流影响。作为一个具体地示例，如图10中

由

和

以及上一个隐含层中的输出共同影响。通过构建额外的门

对

到

之间的信息流进行控制，计算方法如下公式所示。

利用

和

的值计算

计算方法如下公式所示。

对

和

进行归一化，使其

各自和为1，归一化操作计算方法如下公式所示。

对于隐含层的计算方法如下公式所示。

得出隐含层的所有输出h₁，h₂，...，h_l,l为句子中字的数量，标签序列的生成概率y＝l₁，l₂，...，l₁，计算方法如下公式所示。

y′表示任意可能的label序列，

代表l_i的模型参数，

代表l_i-1到 l_i的具体偏差。最后，利用Viterbi算法找到得分最高的标签序列，作为最后的结果输出。

步骤S35：将测试集数据输入至优化后的Lattice LSTM模型中进行评估，得到评估结果。

作为示例性的实施例，评估结果包括精确率、召回率和F1值；在其它示例性的实施例中，评估结果可根据需要合理设置。

为了评估Lattice LSTM模型对古文领域数据实体识别的效果，本实施例中采用精确率、召回率和F1值(F1 score)作为评估标准。首先借助混淆矩阵来理解三项指标的具体含义，其中，TP：正类预测为正类，预测值为1，真实值为1，预测成功；FP：负类预测为正类，预测值为1，真实值为0，预测失误；FN：正类预测为负类，预测值为0，真实值为1，预测失误；TN：负类预测为负类，预测值为0，真实值为0，预测成功。表3中每行之和为真实样本数量，每列之和为预测样本数量。

表3混淆矩阵

①精确率(precision)：精确率是正确预测为正的占全部预测为正的比例，其计算方法如下式所示，精确率越高，代表模型对负样本区分程度越高。

②召回率(recall)：召回率是正确预测为正的占全部实际为正的比例，其计算方法如下式所示，召回率越高，代表模型对正样本的识别程度越好。

③F1 score：结合精确率和召回率，其计算方法如下式所示，F1 score越高，代表模型越稳定。

上述步骤通过python对《四库全书》内容进行批量读取，结合人名、地名、朝代和官职四类词典对数据进行BIO标注，由于机器标注存在一定的问题，在机器标注的基础上，人工对10万字进行修正，减少了基于词典方法的误差，实验的训练集采用机器标注的语料，测试集采用人工修正的语料，提高了模型的准确性，从而提高了命名实体识别的效果。

为了验证本实施例中基于Lattice LSTM的古文领域命名实体识别方法对于提高命名实体识别的效果，进行了多个对比实验，实验结果如下所示。

通过实验主要验证了甲言(jiayan)分词效果以及基于Lattice LSTM 模型的命名实体识别效果，通过精确率、召回率和F1分数进行评估；此外，完成了BiLSTM-CRF模型的参数调优实验以及验证了数据量变化对模型效果的影响。

实验1：为了实现BiLSTM-CRF模型的超参数调优，通过固定预训练的古文词向量，以batch size＝20、Dropout＝0.5、隐藏层节点数＝200、学习率＝0.001为参数基准，对模型中的超参数进行合理调整。根据表4 中的数据结果分析，实验结果最好的超参数值为batch size＝20、 dropout＝0.5、lstm hidden＝200、lr＝0.001，当dropout为0.5时，因随机生成的网络结构最多，所以效果较好。通过本实验可知，改变模型中的超参数值对模型的结果可产生影响，合适的超参数可以使模型取得最优的效果。

表4不同超参数对结果的影响(单位：％)

实验2：为了验证数据量大小对BiLSTM-CRF模型效果的影响，本次实验按照20％的增长率，逐渐增加数据量并对比实验结果，完成数据量对模型效果影响的实验。根据表5中的数据结果分析，随着数据量的逐渐增大，其F1分数也逐渐增大，因为模型训练需要海量数据，数据量越多，BiLSTM-CRF模型的学习效果越好。所以在合适的范围内，应该尽可能地增加数据量，进而提高模型的效果。

表5数据量大小对结果的影响(单位：％)

实验3：为了验证甲言(jiayan)分词对古文命名实体识别效果的影响，本实验采用jieba与jiayan两种分词方法分别训练古文词向量，在 BiLSTM-CRF模型中固定数据集、超参数，通过对比两种词向量下的实验结果，完成对jiayan分词效果的验证。根据表6中的数据结果分析，利用jiayan分词训练的词向量在F1分数上平均约提升0.73％，因此对于古文数据，jiayan分词效果要优于jieba分词效果，jiayan分词对古文数据更准确，是古文领域分词中一个较好的工具。

表6两种分词对结果的影响(单位：％)

经过实验，Lattice LSTM模型最优超参数的设置如表7所示。

表7 Lattice LSTM模型超参数的设置

实验4：为了验证预训练的古文词向量对Lattice LSTM模型效果的影响。在固定数据集、超参数的情况下，分别利用现代文词向量与古文词向量进行实验，完成词向量对模型影响的实验。根据表8和图11的数据结果分析，在Lattice LSTM模型中，基于古文词向量相比现代文词向量在精确率、召回率和F1分数方面平均约提升3.44％、4.48％和4.01％。实验结果显示古文词向量相比现代文词向量对于模型效果有显著的提升，因为古文词向量可以更准确地提取古文中词的特征。因此在其专业强的领域，训练特定领域的词向量对模型的效果可产生正向作用，提高命名实体识别的效果。

表8两种词向量对结果的影响(单位：％)

实验5：为了比较BiLSTM-CRF和Lattice LSTM两种模型的效果，为本实验选取最终模型，通过设置相同数据集、超参数以及古文词向量，完成两种模型效果的对比。根据表9和图12中的数据结果分析，Lattice LSTM模型在精确率、召回率和F1分数三个方面比BiLSTM-CRF模型平均分别提升约5.13％、3.01％和4.06％，其原因是Lattice LSTM模型相比BiLSTM-CRF模型的结构是以字向量和词向量同时作为模型的输入，实现了字词级的特征融合。由于Lattice LSTM模型效果显著优于 BiLSTM-CRF模型效果，本实施例中最终采用Lattice LSTM模型对古文领域数据完成命名实体识别任务。

表9两种模型的效果对比(单位：％)

该方法从古文领域中人名、地名和官职名的构成特点考虑，采用了甲言(jiayan)分词工具，预训练针对古文的词向量，完成了基于Lattice LSTM的古文领域数据命名实体识别任务，与传统的BiLSTM-CRF模型相比，Lattice LSTM模型在NER任务中效果更优，同时验证了训练特定语料的字、词向量可以提升NER任务的效果。

在本实施例中还提供了一种基于Lattice LSTM的古文领域命名实体识别系统，该系统用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例还提供一种基于Lattice LSTM的古文领域命名实体识别系统，如图13所示，包括：分词模块131、预训练字词向量模块132、模型优化模块133和命名实体识别模块134。

分词模块131，用于采用甲言分词对预训练古文数据进行分词；详细内容参考步骤S1所述。

预训练字词向量模块132，用于采用word2vec模型对分词后的预训练古文数据进行预训练得到预训练的字词向量；详细内容参考步骤S2 所述。

模型优化模块133，用于将数据集数据和所述预训练的字词向量输入至LatticeLSTM模型中进行训练，得到优化后的Lattice LSTM模型；详细内容参考步骤S3所述。

命名实体识别模块134，用于将待识别古文数据输入至优化后的 Lattice LSTM模型进行命名实体识别；详细内容参考步骤S4所述。

作为示例性的实施例，模型优化模块包括：获取单元，用于获取数据集数据，详细内容参考步骤S31所述；第一处理单元，用于对所述数据集数据进行标注得到标注数据，详细内容参考步骤S32所述；第二处理单元，用于将标注数据按照预设数值比例进行划分，得到训练集数据、验证集数据和测试集数据，详细内容参考步骤S33所述；第三处理单元，用于将所述训练集数据和所述预训练的字词向量输入至Lattice LSTM模型中进行训练，得到优化后的Lattice LSTM模型，详细内容参考步骤S34 所述；第四处理单元，用于将所述测试集数据输入至优化后的Lattice LSTM模型中进行评估，得到评估结果，详细内容参考步骤S35所述。

作为示例性的实施例，第一处理单元包括：获取子单元，用于获取预设实体种类信息，所述预设实体种类信息包括人名、地名、官职名和朝代名中的至少之一，详细内容参考步骤S321所述；处理子单元，用于根据所述预设实体种类信息对数据集数据采用BIO标注体系进行标注得到标注数据，详细内容参考步骤S322所述。

作为示例性的实施例，所述标注数据包括B-PER代表人名首字、 I-PER代表人名非首字，B-LOC代表地名首字、I-LOC代表地名非首字， B-POS代表官职名首字、I-POS代表官职名非首字，B-DYN代表朝代名首字、I-DYN代表朝代名非首字，O代表该字不属于命名实体的一部分。

作为示例性的实施例，所述测试集数据为人工修正后的数据，所述评估结果包括精确率、召回率和F1值。

作为示例性的实施例，所述甲言分词为字符级隐马尔可夫分词；所述word2vec模型为Skip-gram模型，所述Skip-gram模型的词向量的长度为300，迭代次数为8。

作为示例性的实施例，所述优化后的Lattice LSTM模型的最优超参数为字向量的维度300、lattie词向量维度300、LSTM层数1、学习率初始值0.015、学习率的衰减值0.05、字嵌入层随机丢弃率0.5、lattice网络随机丢弃率0.5。

本实施例中的基于Lattice LSTM的古文领域命名实体识别系统是以功能单元的形式来呈现，这里的单元是指ASIC电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

上述各个模块的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本发明实施例还提供了一种电子设备，如图14所示，该电子设备包括一个或多个处理器141以及存储器142，图14中以一个处理器141为例。

该控制器还可以包括：输入装置143和输出装置144。

处理器141、存储器142、输入装置143和输出装置144可以通过总线或者其他方式连接，图14中以通过总线连接为例。

处理器141可以为中央处理器(Central Processing Unit，CPU)。处理器141还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit， ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。通用处理器可以是微处理器或者是任何常规的处理器等。

存储器142作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本实施例中的基于 Lattice LSTM的古文领域命名实体识别方法对应的程序指令/模块。处理器141通过运行存储在存储器142中的非暂态软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的基于Lattice LSTM的古文领域命名实体识别方法。

存储器142可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外，存储器142 可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器142可选包括相对于处理器141远程设置的存储器，这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置143可接收输入的数字或字符信息，以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置144可包括显示屏等显示设备。

一个或者多个模块存储在存储器142中，当被一个或者多个处理器 141执行时，执行如图1-12所示的基于Lattice LSTM的古文领域命名实体识别方法。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指示相关的硬件来完成，被执行的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述基于Lattice LSTM的古文领域命名实体识别方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(HardDisk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种基于Lattice LSTM的古文领域命名实体识别方法，其特征在于，包括：

采用甲言分词对预训练古文数据进行分词；

采用word2vec模型对分词后的预训练古文数据进行预训练得到预训练的字词向量；

将数据集数据和所述预训练的字词向量输入至Lattice LSTM模型中进行训练，得到优化后的Lattice LSTM模型；

将待识别古文数据输入至优化后的Lattice LSTM模型进行命名实体识别。

2.如权利要求1所述的基于Lattice LSTM的古文领域命名实体识别方法，其特征在于，将数据集数据和所述预训练的字词向量输入至Lattice LSTM模型中进行训练，得到优化后的Lattice LSTM模型的步骤中，包括：

获取数据集数据；

对所述数据集数据进行标注得到标注数据；

将标注数据按照预设数值比例进行划分，得到训练集数据、验证集数据和测试集数据；

将所述训练集数据和所述预训练的字词向量输入至Lattice LSTM模型中进行训练，得到优化后的Lattice LSTM模型；

将所述测试集数据输入至优化后的Lattice LSTM模型中进行评估，得到评估结果。

3.如权利要求2所述的基于Lattice LSTM的古文领域命名实体识别方法，其特征在于，对所述数据集数据进行标注得到标注数据的步骤中，包括：

获取预设实体种类信息，所述预设实体种类信息包括人名、地名、官职名和朝代名中的至少之一；

根据所述预设实体种类信息对数据集数据采用BIO标注体系进行标注得到标注数据。

4.如权利要求3所述的基于Lattice LSTM的古文领域命名实体识别方法，其特征在于，所述标注数据包括B-PER代表人名首字、I-PER代表人名非首字，B-LOC代表地名首字、I-LOC代表地名非首字，B-POS代表官职名首字、I-POS代表官职名非首字，B-DYN代表朝代名首字、I-DYN代表朝代名非首字，O代表该字不属于命名实体的一部分。

5.如权利要求2所述的基于Lattice LSTM的古文领域命名实体识别方法，其特征在于，所述测试集数据为人工修正后的数据，所述评估结果包括精确率、召回率和F1值。

6.如权利要求1所述的基于Lattice LSTM的古文领域命名实体识别方法，其特征在于，

所述甲言分词为字符级隐马尔可夫分词；

所述word2vec模型为Skip-gram模型，所述Skip-gram模型的词向量的长度为300，迭代次数为8。

7.如权利要求1-6任一所述的基于Lattice LSTM的古文领域命名实体识别方法，其特征在于，所述优化后的Lattice LSTM模型的最优超参数为字向量的维度300、lattie词向量维度300、LSTM层数1、学习率初始值0.015、学习率的衰减值0.05、字嵌入层随机丢弃率0.5、lattice网络随机丢弃率0.5。

8.一种基于Lattice LSTM的古文领域命名实体识别系统，其特征在于，包括：

分词模块，用于采用甲言分词对预训练古文数据进行分词；

预训练字词向量模块，用于采用word2vec模型对分词后的预训练古文数据进行预训练得到预训练的字词向量；

模型优化模块，用于将数据集数据和所述预训练的字词向量输入至Lattice LSTM模型中进行训练，得到优化后的Lattice LSTM模型；

命名实体识别模块，用于将待识别古文数据输入至优化后的Lattice LSTM模型进行命名实体识别。

9.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-7任意一项所述的基于Lattice LSTM的古文领域命名实体识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1-7任意一项所述的基于LatticeLSTM的古文领域命名实体识别方法。