CN115759102A

CN115759102A - 一种中国诗酒文化命名实体识别方法

Info

Publication number: CN115759102A
Application number: CN202211514160.9A
Authority: CN
Inventors: 李兆飞; 杨壮; 魏旭东; 张奕杰
Original assignee: Sichuan University of Science and Engineering
Current assignee: Sichuan University of Science and Engineering
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-03-07

Abstract

本发明公开了一种中国诗酒文化命名实体识别方法，涉及自然语言处理中的命名实体识别(NER)领域。本发明首先通过ALBERT模块获得字符级别的语义信息，然后由BILSTM模块抽取其高维特征，最后在CRF模块预测出真实的标签(包括：诗词题目，作者，时间，体裁和类型五类)序列。本发明在当前NER任务中最热门的预训练模型BERT的基础上改进，用ALBERT预训练模型替换BERT预训练模型，在保证命名实体识别效果的同时，大大提升了训练速度；并且通过BILSTM模型解决了中国诗酒文化命名实体识别中实体长短不一的难点。该方法的效果高于现有的主流模型，可以高效提取中国诗酒文化中的重要实体信息，是一种针对长短不一诗歌类命名实体识别的有效方法。

Description

一种中国诗酒文化命名实体识别方法

技术领域

本发明涉及自然语言处理中的命名实体识别(NER)领域，具体是一种针对中国诗酒文化命名实体识别方法。

背景技术

诗词和白酒都作为中国的传统文化，是世界传统文化的重要组成部分。而从古至今，诗人对酒就有独特的情感，无论是离别或是重逢，得意或是失意，都要通过喝酒和吟诗来抒发其伤心和喜悦的心情，于是就诞生了一首首脍炙人口的以酒抒情的诗歌。而在信息爆炸的今天，我们获取信息的渠道越来越多，但是所获得的信息大多是零散且不完整的，这对完整且系统地了解和研究传统文化是一大难点。为增强人们对传统中国诗酒文化的了解，通过中国诗酒文化命名实体识别从相关数据集中识别出诗词的题目，诗人，作者等更加全面的相关知识，能为构建其知识图谱和问答系统提供前提，也能为相关领域的传统文化研究者提供的技术积累。

命名实体识别(NER)是自然语言处理(NLP)中的一项基本任务，在1995年11月的第六届MUC会议(MUC-6，the Sixth Message Understanding Conferences)上被首次提出，其任务是旨在从给定的文本中识别并提取出实体的边界和实体类型，如人物、地点、组织等。命名实体识别(NER)不仅仅是作为信息提取工具，而且在知识图谱、关系抽取、问答系统等方面都发挥着重要的作用。根据NER的发展历程，NER方法主要分为4类：基于规则和词典的方法、基于无监督的方法、基于有监督的方法和基于深度学习的方法。

基于规则与词典的方法主要依赖人工的方式，通过语言学专家根据语言特性人工构造规则模板，选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词、中心词等方法，以模式和字符串相匹配为主要手段，这类系统大多依赖知识库和词典建立。基于无监督的方法主要是基于聚类的方法，或者基于实体与种子术语的相识度判定方法，在大规模未标注语料上使用词汇特征进行统计分析，以实现实体识别。根据文本相似度得到不同的文本簇，表示不同的实体组别，常用到的特征或者辅助信息有词汇资源、语料统计信息(TF-IDF)、浅层语义信息等。基于有监督的方法是将NER任务转换成分类问题，通过机器学习方法将已标记的语料构造为特征向量，以此建立分类模型来识别实体。基于特征的有监督学习的NER方法一般流程包括：首先是获取实验原始数据，然后对原始数据预处理，根据预处理之后数据的文本信息，选择合适的特征，给不同的特征设置不同的权重并选择合适的分类器训练特征向量，得到NER模型，利用NER模型进行实体识别，最后对结果进行评估。基于深度学习的方法对处理NER等序列标注任务的处理流程是类似的。首先，将序列通过Word2Vec等编码方式转换成分布式表示，随后将句子的特征表示输入到编码器中，利用神经网络自动提取特征，最后使用CRF等解码器来预测序列中词对应的标签。

目前，深度学习的方法已经广泛应用于命名实体识别，尽管中文命名实体识别的起步比英文命名实体识别晚，但在军事、医疗、金融等垂直领域已经有了一定的发展。中国诗酒文化实体识别的难点和关键在于该实体长短不一的特点，影响识别的准确性，并且现阶段NER任务主流模型训练成本高。

为了解决中国诗酒文化的命名实体识别和模型训练成本高的问题，发明了一种ALBERT和BILSTM-CRF相结合的中国诗酒文化识别模型，并将其与现阶段NER任务所使用的主流模型进行了对比，其识别准确率更高。

发明内容

为了解决上述技术问题，本发明提供了一种针对中国诗酒文化命名实体识别方法，针对中国诗酒文化命名实体识别中实体长短不一的特点导致的准确性不高的问题，结合不同NER任务所使用的模型，搭建一种轻量级BERT(ALite BERT，ALBERT)叠加双向长短期记忆网络(Bi-directional Long Short-Term Memory,BILSTM)和条件随机场(Conditional Random Field,CRF)的深度识别方法，来提高中国诗酒文化命名实体识别的准确率。

为了达到解决上述技术问题的技术效果，本发明是通过以下技术方案实现的：

一种针对中国诗酒文化命名实体识别方法，具体步骤如下：

步骤一：搭建ALBERT-BILSTM-CRF模型；

步骤二：基于ALBERT-BILSTM-CRF模型，采用‘BIO’标注的数据对命名实体识别模型进行预训练，再利用BILSTM层对字符级语义信息进行特征提取，最后通过CRF对标签序列解码，输出实体；

进一步地，所述ALBERT-BILSTM-CRF模型由ALBERT层、BILSTM层和CRF层组成；

进一步地，所述ALBERT层由Transformer Encoder堆叠而成，BILSTM层由两个结构相同，方向相反的长短期记忆网络-Long short-term memory,LSTM拼接成的双向LSTM，所述CRF层利用Veterbi动态规划算法获得标签的最优序列，对句子进行全局的标签序列解码；

进一步地，所述步骤二进行预训练时，模型通过ALBERT预训练模型对输入的诗歌序列化文本进行预处理，并且ALBERT模型在全连接层和注意层进行参数共享；

通过上述方案，大大减少了参数量，提高了训练速度。为了弥补参数量减少带来的性能降低，ALBERT提出句间连续性预测SOP(Sentence OrderPrediction)来提升模型性能。

进一步地，所述诗歌序列化文本预处理时，ALBERT中将ont-hot向量映射到大小为E的低维空间，再将其映射到隐藏层；所述参数共享是对共享编码器中的所有参数进行共享；

进一步地，所述语义信息特征提取时，模型采用BILSTM对上下文进一步建模；先将通过ALBERT层获取的字向量作为BILSTM的输入，再将其输入到序列编码层的BILSTM层中，通过BILSTM对输入进行上下文特征的提取；BILSTM网络通过两个LSTM网络进行前向和后向传播，最终将结果拼接输出；

进一步地，所述CRF层标签序列解码时，BILSTM层通过融合上下文信息获得特征表示向量，选取概率最大的标签进行输出；

进一步地，所述CRF层采用Veterbi动态规划算法对句子进行全局的标签序列解码，获取标签的最优序列；

通过上述方案，CRF层可以学习标签之间的约束关系，从而提高预测实体输出的准确性。

本发明为一种针对中国诗酒文化命名实体识别方法，基于ALBERT-BILSTM-CRF模型在中国诗酒文化命名实体特征识别中的应用。

本发明的有益效果是：

1、本发明基于ALBERT-BILSTM-CRF模型的命名实体识别方法，通过参数共享的方法，大大减少了参数数量，提高了训练速度。

2、本发明通过提出句间连续性预测的方法，提升了模型的效果，使模型在参数大大减少的情况下也没有降低模型效果。

3、本发明解决了中国诗酒文化实体识别中实体长短不一的问题，并且具有很好的效果。

附图说明

图1是ALBERT-BILSTM-CRF网络结构；

图2是ALBERT模型的输入表示；

图3是LSTM单元结构；

图4是BILSTM网络结构；

图5是ALBERT-BILSTM-CRF组成导图；

图6是本方法的流程图。

具体实施方式

本发明提供一种基于ALBERT-BILSTM-CRF的中国诗酒文化命名实体识别方法，首先通过ALBERT模块获得字符级别的语义信息，然后由BILSTM模块抽取其高维特征，最后在CRF模块预测出真实的标签(包括：诗词题目，作者，时间，体裁和类型五类)序列。

实施例1

本实施例提供搭建ALBERT-BILSTM-CRF模型，如图1所示，ALBERT-BILSTM-CRF命名实体识别模型主要是由ALBERT层、BILSTM层和CRF层组成。如图5，其中，ALBERT是一种轻量级的BERT，用于语言表示的自我监督学习，该模型架构与BERT非常类似，但是ALBERT大大减少了参数数量，使其所占内存仅仅为BERT的十分之一。为了解决大幅减少参数带来的模型性能降低的问题，ALBERT提出了对词嵌入作因式分解、跨层参数共享和句间连贯性预测三种改进方式，在保证模型性能的前提下极大地减少了模型的内存占用，且训练速度也得以明显提升。BILSTM层通过将两个结构相同，方向相反的LSTM网络拼接在一起，形成一个双向的LSTM网络，通过对序列中的每个词都进行前向传播和后向传播，然后将前向学习和后向学习的结构连起来输出，解决了单向LSTM只能学习前向信息的问题；其中LSTM是通过对RNN进行改进而得，有效解决了长序列文本引起的梯度爆炸和梯度消失的问题。CRF层可以学习标签之间的约束关系，并采用Veterbi动态规划算法获得标签的最优序列，对句子进行全局的标签序列解码，从而提高预测实体输出的准确性。

实施例2

本实施例提供ALBERT-BILSTM-CRF模型对中国诗酒文化命名实体识别方法三个阶段如图6，第一阶段，采用‘BIO’标注的数据对命名实体识别模型进行预训练阶段。如图2所示，对于给定的一个句子，ALBERT模型的输入表示是通过将每个词语的词向量输入、句子向量和词语位置向量相加来构造的，然后在句子的开头和结尾分别插入特殊字符[CLS]和[SEP]来表示句子的开头和结尾。ALBERT层将输入的每个字映射成字向量；然后采用Transformer双向综合考虑上下文特征进行编码，将学到的知识加到token的表示上，获得字符级别的语义信息，然后将其输出的语义信息作为BILSTM层的输入。

第二阶段，利用BILSTM层对字符级语义信息进行特征提取阶段。如图3所示，LSTM由遗忘门、输入门、计算及输出门这4部分组成，可以选择性地让信息通过。遗忘门ft介于0-1之间，可以有选择地让传输带Ct-1中对应的元素无法通过，即选择性遗忘一些元素；输入门it向传输带C中添加了新的信息，从而对传输带进行一轮更新；输出门Ot依赖于旧的状态向量ht-1和新的输入xt，计算类似于遗忘门；最后对传输带Ct的每个元素求双曲正切，将元素压到-1到+1之间，然后将Ot和tanh[Ct]的对应元素想乘，得到状态向量ht。通过LSTM单元的计算后，可以得到与句子长度相同的状态序列。BILSTM网络通过将两个结构相同，方向相反的LSTM网络拼接在一起，形成一个双向的LSTM网络，其结构如图4所示。通过对序列中的每个词都进行前向传播和后向传播，然后将前向学习和后向学习的结构连起来输出，解决了单向LSTM只能学习前向信息的问题，且输出效果更好。

第三阶段：通过CRF对标签序列解码，得到实体输出阶段。CRF层将BILSTM层的输出序列当做输入，如输入一组序列标签X＝{x1,x2,…,xn},预测序列标签为y＝{y1,y2,…,yn},通过公式算出输出的预测标签的得分，其中是BiLSTM模块隐层输出经线性操作后得到的初始得分矩阵,表示第i个字符预测为yi标签的分数，为从标签yi到标签yi+1的转移分数。通过对输入序列标签X对应的输出序列标签y计算得分，最终选择最高分的序列作为输出结果。

本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种针对中国诗酒文化命名实体识别方法，其特征在于，具体步骤如下：

步骤一：搭建ALBERT-BILSTM-CRF模型；

步骤二：基于ALBERT-BILSTM-CRF模型，采用‘BIO’标注的数据对命名实体识别模型进行预训练，再利用BILSTM层对字符级语义信息进行特征提取，最后通过CRF对标签序列解码，输出实体。

2.根据权利要求1所述中国诗酒文化命名实体识别方法，其特征在于，所述ALBERT-BILSTM-CRF模型由ALBERT层、BILSTM层和CRF层组成。

3.根据权利要求2所述中国诗酒文化命名实体识别方法，其特征在于，所述ALBERT层由Transformer Encoder堆叠而成，BILSTM层由两个结构相同，方向相反的长短期记忆网络-Long short-termmemory,LSTM拼接成的双向LSTM，所述CRF层利用Veterbi动态规划算法获得标签的最优序列，对句子进行全局的标签序列解码。

4.根据权利要求1所述中国诗酒文化命名实体识别方法，其特征在于，所述步骤二进行预训练时，模型通过ALBERT预训练模型对输入的诗歌序列化文本进行预处理，并且ALBERT模型在全连接层和注意层进行参数共享。

5.根据权利要求4所述中国诗酒文化命名实体识别方法，其特征在于，所述诗歌序列化文本预处理时，ALBERT中将ont-hot向量映射到大小为E的低维空间，再将其映射到隐藏层；所述参数共享是对共享编码器中的所有参数进行共享。

6.根据权利要求1所述中国诗酒文化命名实体识别方法，其特征在于，所述语义信息特征提取时，模型采用BILSTM对上下文进一步建模；先将通过ALBERT层获取的字向量作为BILSTM的输入，再将其输入到序列编码层的BILSTM层中，通过BILSTM对输入进行上下文特征的提取；BILSTM网络通过两个LSTM网络进行前向和后向传播，最终将结果拼接输出。

7.根据权利要求1所述中国诗酒文化命名实体识别方法，其特征在于，所述CRF层标签序列解码时，BILSTM层通过融合上下文信息获得特征表示向量，选取概率最大的标签进行输出。

8.根据权利要求7所述中国诗酒文化命名实体识别方法，其特征在于，所述CRF层采用Veterbi动态规划算法对句子进行全局的标签序列解码，获取标签的最优序列。

9.根据权利要求1～8任意一项所述中国诗酒文化命名实体识别方法，其特征在于，所述识别方法基于ALBERT-BILSTM-CRF模型在中国诗酒文化命名实体特征识别中的应用。