CN117807999A

CN117807999A - 基于对抗学习的域自适应命名实体识别方法

Info

Publication number: CN117807999A
Application number: CN202410228431.7A
Authority: CN
Inventors: 关相承; 鄢曙光; 马喜双; 马可盈; 伍慧弘
Original assignee: Wuhan University of Science and Engineering WUSE
Current assignee: Wuhan University of Science and Engineering WUSE
Priority date: 2024-02-29
Filing date: 2024-02-29
Publication date: 2024-04-02
Anticipated expiration: 2044-02-29
Also published as: CN117807999B

Abstract

本发明公开了基于对抗学习的域自适应命名实体识别方法，所述方法包括：收集多类型文本的命名实体识别数据集；使用基于预训练语言模型的文档编码器对命名实体识别数据集中的文档进行特征编码，获得文档特征；把文档特征输入命名实体识别模块，预测实体，计算命名实体识别损失函数；把文档特征输入文本类型分类器，判断文本类型，计算文本类型分类损失函数；对文档编码器和文本类型分类器进行对抗学习，使文档编码器提取出域无关的文本特征；用文档编码器和命名实体识别模块进行命名实体识别。本发明创新性使用对抗学习的方式，通过文档编码器和文本类型分类器之间的对抗训练，使文档编码器提取出域无关的文档特征，实现域自适应命名实体识别。

Description

基于对抗学习的域自适应命名实体识别方法

技术领域

本发明涉及深度学习和自然语言处理领域，尤其涉及一种基于对抗学习的域自适应命名实体识别方法。

背景技术

命名实体是指具有独立身份或特定类别的实体，如人名、地名、组织机构名、日期、时间、货币、百分比等。命名实体识别任务的目标是在给定的文本中，标注出这些命名实体的边界，并为每个实体分配正确的类别标签。

命名实体识别方法包括：①传统的规则和规则模板方法：在早期的命名实体识别研究中，人们使用手工设计的规则和规则模板来识别命名实体。②基于机器学习的方法：随着机器学习技术的发展，研究者开始使用机器学习算法来自动学习命名实体的识别模型。常用的机器学习算法包括最大熵模型、隐马尔可夫模型、条件随机场等。这些方法通过训练数据集来学习命名实体的特征和上下文信息，从而对新的文本进行命名实体识别。③基于深度学习的方法：近年来，深度学习技术在自然语言处理领域取得了显著的进展。在命名实体识别中，研究者开始使用深度学习模型，如循环神经网络、长短期记忆网络、卷积神经网络以及最近的预训练语言模型，来提高命名实体的识别性能。这些深度学习模型可以自动学习文本中的上下文信息和语义特征，从而更准确地识别命名实体。然而上述的方法都存在着域自适应能力弱的问题，例如在新闻文本上训练出的命名实体识别模型，在网络自媒体文本上的表现远差于其在新闻文本上的表现。然而我们不可能在实际中搜集所有类型的文本来训练模型，因此如何训练出一个具有域自适应能力的，对不同类型文本都性能优秀的命名实体识别模型是一个待解决的，有意义的问题。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明公开了基于对抗学习的域自适应命名实体识别方法。所述方法能够实现域自适应命名实体识别，相比现有方法，本方法创新性地使用对抗学习的方式，通过文档编码器和文本类型分类器之间的对抗训练，使文档编码器提取出域无关的文档特征，实现域自适应命名实体识别。

本发明的目的是通过如下技术方案实现的，基于对抗学习的域自适应命名实体识别方法，所述方法包括：

步骤1，收集多类型文本的命名实体识别数据集；

步骤2，使用基于预训练语言模型的文档编码器对命名实体识别数据集中的文档进行特征编码，获得文档特征；

步骤3，把文档特征输入命名实体识别模块，预测实体，计算命名实体识别损失函数；

步骤4，把文档特征输入文本类型分类器，判断文本类型，计算文本类型分类损失函数；

步骤5，对文档编码器和文本类型分类器进行对抗学习，使文档编码器提取出域无关的文本特征；

步骤6，用文档编码器和命名实体识别模块进行命名实体识别。

所述的收集多类型文本的命名实体识别数据集，包括以下步骤：

步骤101，收集现有的命名实体识别数据集，包括新闻报道、社交媒体帖子和科技论文，收集数据集并记录文本类型；

步骤102，扩充数据集，为命名实体识别数据集上的数据打上命名实体识别标注和文本类型标注。

所述的使用基于预训练语言模型的文档编码器对命名实体识别数据集中的文档进行特征编码，获得文档特征，包括以下步骤：

对文档进行分词，在句首和句尾加上起始标记“<CLS>”和结束标记“<SEP>”；用Bert-large的词嵌入模型将分词映射到低维连续的特征空间中；

分词后的文档为，其中第 /> 个词为 />，/> 表示文档中词的总数，/> 表示词嵌入的维度，/> 表示Bert-large预训练语言模型的词嵌入矩阵，则经过词嵌入后的文档表示为 />，表达式为：

；

其中表示起始标记“<CLS>”的词嵌入，/> 表示第 /> 个词 />的词嵌入，/> 表示结束标记“<SEP>”的词嵌入；

使用Bert-large预训练语言模型的多层Transformer网络对进行特征提取，得到文档特征 />，表达式为：

；

其中表示Bert-large预训练语言模型中Transformer网络的参数，/>表示用预训练语言模型Bert-large对文档进行特征编码输出的文档特征。

所述的把文档特征输入命名实体识别模块，预测实体，计算命名实体识别损失函数，包括以下步骤：

步骤301，构造实体预测特征矩阵；将所述的文档特征的维度在第0维度进行扩充，得到/>，在第1维度进行扩充，得到/>，将/>在第0维度复制n+2次和/>在第1维度复制n+2次后进行拼接，得到实体预测特征矩阵；所述的文档特征/>的数据结构是张量，张量是一种高维矩阵，维度指的是张量的各个方向上的长度，第0维度指的是第0个方向，第1维度指的是第1个方向，对张量在某个维度进行扩充，是指对张量在某个方向上增加一个维度；

步骤302，使用两个全连接层预测出实体类型概率向量矩阵，表达式为：

；

其中，和/>是可学习的参数，Relu和Softmax是激活函数，Softmax用于把向量归一化为概率向量，/>，/>是不包括负样本的实体类别数，/>中的元素/>表示第i个词到第j个词的片段是第k类实体的概率，/>表示第i个词到第j个词的片段是负样本的概率，负样本表示该词片段不构成一个实体；

步骤303，构造实体类型标注矩阵，表达式为：

；

其中，，是/>相同维度的张量，是实体类型标注矩阵；

步骤304，计算命名实体识别损失函数，表达式为：

；

其中，表示文档中词的总数，/>表示不包括负样本的实体类别数，/>表示命名实体识别损失函数。

所述的把文档特征输入文本类型分类器，判断文本类型，计算文本类型分类损失函数，包括以下步骤：

步骤401，预测文本类型；使用两个嵌套的全连接层对所述的起始标记“<CLS>”的词嵌入进行映射，获得对应的文本类型概率向量，表达式为：

；

其中，和/>是可学习的参数，ReLU和Softmax是激活函数，表示文本类型概率向量，/>表示文本类型的总数量；

步骤402，构造文本类型标注向量；根据收集到的多类型文本的命名实体识别数据集，对每个文本进行文本类型标注，得到文本类型标注向量，表达式为：

；

其中，表示文本类型标注向量;

步骤403，计算文本类型分类损失函数；使用交叉熵损失函数计算文本类型分类器的损失，表达式为：

；

其中，表示文本类型分类损失函数，/>表示文本类型为第i类的概率。

所述的对文档编码器和文本类型分类器进行对抗学习，使文档编码器提取出域无关的文本特征，包括以下步骤：

步骤501，从命名实体识别数据集中随机采样一批数据，计算命名实体识别损失函数，计算文本类型分类损失函数/>；

步骤502，冻结文档编码器和命名实体识别模块的参数，使用Adam优化算法对文本类型分类损失函数进行优化，使得文本类型分类器对不同类型的输入文本区分能力更强；

步骤503，冻结文本类型分类器，使用Adam优化算法对命名实体识别损失函数减去文本类型分类损失函数/>函数的差值/>，进行优化，使得命名实体识别模块的实体预测能力更强，且文档编码器能够提取出更加文本类型无关的特征；

重复步骤501至502，使文档编码器具备提取出域无关的文本特征的能力。

与现有方法相比，本发明方法的优点在于：本技术提供了，基于对抗学习的域自适应命名实体识别方法。本方法创新性使用对抗学习的方式，通过文档编码器和文本类型分类器之间的对抗训练，使文档编码器提取出域无关的文档特征，实现域自适应命名实体识别。

附图说明

图1示出了本发明实施例的流程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本实施例中，假设我们在构建大规模知识图谱。这需要从互联网上爬取海量的文本并对其进行结构化。文本结构化的过程离不开命名实体识别，对这个任务可以使用我们提出的基于对抗学习的域自适应命名实体识别方法。所述方法可以用于医疗领域的命名实体识别，从医疗领域相关文本中识别出相应的疾病、药品、症状等命名实体。

由此，如图1所示，基于对抗学习的域自适应命名实体识别方法，所述方法包括：

步骤1，收集多类型文本的命名实体识别数据集；

；

Bert（Bidirectional Encoder Representations from Transformers）是一种预训练的语言模型，由Google研究团队在2018年提出。Bert的设计目标是通过在大规模无标签文本数据上进行预训练，学习通用的语言表示，然后在各种下游自然语言处理任务上进行微调，以提高模型性能。

Bert采用了Transformer架构，其中包含多个自注意力机制层和前馈神经网络层。与传统的单向语言模型不同，Bert引入了双向上下文建模，即在预训练过程中同时利用了左侧和右侧的上下文信息。这使得Bert能够更好地理解词语在句子中的含义和语境。

步骤301，构造实体预测特征矩阵；将所述的文档特征的维度在第0维度进行扩充，得到/>，在第1维度进行扩充，得到/>，将/>在第0维度复制n+2次和/>在第1维度复制n+2次后进行拼接，得到实体预测特征矩阵；

；

步骤303，构造实体类型标注矩阵，表达式为：

；

其中，，是/>相同维度的张量，是实体类型标注矩阵；

步骤304，计算命名实体识别损失函数，表达式为：

；

其中，表示文本类型标注向量;

；

域自适应（Domain Adaptation）是一种机器学习方法，旨在解决在训练数据和测试数据的分布不匹配情况下的学习问题。在实际应用中，由于不同领域或不同环境下数据的差异，训练数据和测试数据的分布可能存在偏移，从而导致在测试阶段的性能下降。

域自适应的目标是通过将源域（训练数据的来源域）上学习到的知识迁移到目标域（测试数据的所属域），以提高在目标域上的泛化性能。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.基于对抗学习的域自适应命名实体识别方法，其特征在于，所述方法包括：

步骤1，收集多类型文本的命名实体识别数据集；

2.根据权利要求1所述的基于对抗学习的域自适应命名实体识别方法，其特征在于，所述的收集多类型文本的命名实体识别数据集，包括以下步骤：

3.根据权利要求2所述的基于对抗学习的域自适应命名实体识别方法，其特征在于，所述的使用基于预训练语言模型的文档编码器对命名实体识别数据集中的文档进行特征编码，获得文档特征，包括以下步骤：

；

其中表示起始标记“<CLS>”的词嵌入，/> 表示第 /> 个词 />的词嵌入，表示结束标记“<SEP>”的词嵌入；

；

4.根据权利要求3所述的基于对抗学习的域自适应命名实体识别方法，其特征在于，所述的把文档特征输入命名实体识别模块，预测实体，计算命名实体识别损失函数，包括以下步骤：

；

其中，和/>是可学习的参数，Relu和Softmax是激活函数，Softmax用于把向量归一化为概率向量，/>，/>是不包括负样本的实体类别数，中的元素/>表示第i个词到第j个词的片段是第k类实体的概率，/>表示第i个词到第j个词的片段是负样本的概率，负样本表示该词片段不构成一个实体；

步骤303，构造实体类型标注矩阵，表达式为：

；

其中，，是/>相同维度的张量，是实体类型标注矩阵；

步骤304，计算命名实体识别损失函数，表达式为：

；

5.根据权利要求4所述的基于对抗学习的域自适应命名实体识别方法，其特征在于，所述的把文档特征输入文本类型分类器，判断文本类型，计算文本类型分类损失函数，包括以下步骤：

；

其中，表示文本类型标注向量;

；

6.根据权利要求5所述的基于对抗学习的域自适应命名实体识别方法，其特征在于，所述的对文档编码器和文本类型分类器进行对抗学习，使文档编码器提取出域无关的文本特征，包括以下步骤：