CN113792551A - 一种基于混合式迁移学习的命名实体识别方法 - Google Patents

一种基于混合式迁移学习的命名实体识别方法 Download PDF

Info

Publication number
CN113792551A
CN113792551A CN202110915830.7A CN202110915830A CN113792551A CN 113792551 A CN113792551 A CN 113792551A CN 202110915830 A CN202110915830 A CN 202110915830A CN 113792551 A CN113792551 A CN 113792551A
Authority
CN
China
Prior art keywords
data set
model
migration
domain data
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110915830.7A
Other languages
English (en)
Inventor
余肖生
张合欢
沈胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Three Gorges University CTGU
Original Assignee
China Three Gorges University CTGU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Three Gorges University CTGU filed Critical China Three Gorges University CTGU
Priority to CN202110915830.7A priority Critical patent/CN113792551A/zh
Publication of CN113792551A publication Critical patent/CN113792551A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于混合式迁移学习的命名实体识别方法,包括以下步骤:(1)数据预处理;(2)实例迁移;(3)模型预训练:使用源域数据集不断训练BiLSTM‑CRF模型,选取性能最好的参数并保留;(4)模型迁移。该基于混合式迁移学习的命名实体识别方法混合了样本迁移和模型迁移,以解决中文命名实体识别领域样本不足的问题,同时使用最大均值差异构建适应层以解决数据分布不一致的问题,实验过程中通过动态的选择超参数能够在一定程度上降低算法的负迁移现象。

Description

一种基于混合式迁移学习的命名实体识别方法
技术领域
本发明涉及命名实体识别技术领域,具体为一种基于混合式迁移学习的命名实体识别方法。
背景技术
随着深度学习成为机器学习的新领域,不少学者尝试使用深度学习技术来解决命名实体识别问题。尽管基于深度学习的命名实体识别方法取得了较好的效果,但是在实际应用中,获取足够的训练数据是非常困难的,训练数据的匮乏会导致深度学习的学习效果不佳。
而迁移学习能够将已经学习过的知识迁移并引用到新的问题中,目的是利用已经在大量数据中学好的知识来提高目标任务的性能,其已成为解决数据集规模较小这一问题的重要方法。传统的迁移学习方法分为基于实例的迁移学习、基于特征的迁移学习和基于模型的迁移学习等三类,常用于解决样本数量过少导致模型在训练过程中出现过拟合的现象。
但是在一定程度上会出现负迁移现象,还不能很好地适应文本域的变化,并且会出现数据集中训练集和测试集分布不一致的问题。
发明内容
本发明的目的在于提供一种基于混合式迁移学习的命名实体识别方法,以解决因训练数据的匮乏导致深度学习的学习效果不佳的问题,利用传统的迁移学习在一定程度上会出现负迁移现象,还不能很好地适应文本域的变化,并且会出现数据集中训练集和测试集分布不一致的问题。
为实现上述目的,本发明提供如下技术方案:一种基于混合式迁移学习的命名实体识别方法,包括以下步骤:
(1)数据预处理
获取源域数据集
Figure BDA0003205493790000021
与目标域数据集
Figure BDA0003205493790000022
(m,n分别表示源域数据集和目标域数据集的样例数,m>n),获取数据集后进行清洗、整理,使用jieba对文本进行分词,用word2vec将每个样本转换成词向量样本。
(2)实例迁移
针对每一个目标域数据集样本
Figure BDA0003205493790000023
,计算
Figure BDA0003205493790000024
与源域数据集中所有样本在不同度量下的相似度距离D∈Rn×m×j(j为选取的相似度距离度量方法种类),通过数据引力计算得到最终权重值P∈Rn×m×j,权值按降序排列后,由最佳迁移数来确定k个最相似的样本,即最终的迁移样本Tk,将其迁移至目标域数据集中得到扩充的目标域数据集Ttrans=T∪Tk
(3)模型预训练
使用源域数据集多次训练BiLSTM-CRF模型,选取性能最好的参数W并保留。
(4)模型迁移
构建新的BiLSTM-CRF模型,用预训练模型保留的参数W做参数初始化;用扩充后的目标域数据集Ttrans训练新的Bi-LSTM-CRF模型,通过损失函数迭代优化模型,W参与网络模型的更新迭代,并不断调整超参数。
进一步的,所述步骤(1)中,向量样本的向量维度选取100。
与现有技术相比,本发明的有益效果是:
1、本发明通过在BiLSTM-CRF模型中引入两种迁移学习方式:实例迁移和模型迁移,解决命名实体识别领域中深度学习方法因训练数据匮乏导致的效果不佳的问题;
MT-NER方法的实例迁移部分中,通过计算源域样本相对于目标域样本的相似度来权衡样本之间的权值大小,权值按降序排列后,由最佳迁移数来确定k个最相似的样本,即最终的迁移样本。
MT-NER算法的模型迁移部分中,首先利用大规模的源域样本来训练BiLSTM-CRF模型,得到性能较优的预训练模型,保存其参数特征,然后使用经过实例迁移扩充后的新目标域数据作为训练数据,利用预训练模型的参数初始化新的BiLSTM-CRF模型,采用finetune技术调整参数,并在损失函数中引入数据分布自适应项。
MT-NER算法混合两种迁移学习,能够更好地将源域中学习到的知识迁移至目标域中,实例迁移中最佳迁移数的设定能够动态地得到迁移效果的反馈,可以防止一定程度的负迁移现象;模型迁移中使用了finetune技术,能够帮助模型适应文本域的变化,并且数据分布自适应的设定能够解决数据集中训练集和测试集分布不一致的问题。
2、混合了样本迁移和模型迁移,以解决中文命名实体识别领域样本不足的问题,同时使用最大均值差异构建适应层以解决数据分布不一致的问题,实验过程中通过动态的选择超参数能够在一定程度上降低算法的负迁移现象。
附图说明
图1为本发明方法流程示意图;
图2为本发明BiLSTM-CRF框架图。
具体实施方式
在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“设置有”、“连接”等,应做广义理解,例如“连接”,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,本发明提供一种技术方案:一种基于混合式迁移学习的命名实体识别方法,包括以下步骤:
(1)数据预处理
获取源域数据集
Figure BDA0003205493790000041
与目标域数据集
Figure BDA0003205493790000042
(m,n分别表示源域数据集和目标域数据集的样例数,m>n),获取数据集后进行清洗、整理,使用jieba对文本进行分词,用word2vec将每个样本转换成词向量样本。
(2)实例迁移
针对每一个目标域数据集样本
Figure BDA0003205493790000043
计算
Figure BDA0003205493790000044
与源域数据集中所有样本在不同度量下的相似度距离D∈Rn×m×j(j为选取的相似度距离度量方法种类),通过数据引力计算得到最终权重值P∈Rn×m×j,权值按降序排列后,由最佳迁移数来确定k个最相似的样本,即最终的迁移样本Tk,将其迁移至目标域数据集中得到扩充的目标域数据集Ttrans=T∪Tk
(3)模型预训练
使用源域数据集多次训练BiLSTM-CRF模型,选取性能最好的参数W并保留。
(4)模型迁移
构建新的BiLSTM-CRF模型,用预训练模型保留的参数W做参数初始化;用扩充后的目标域数据集Ttrans训练新的Bi-LSTM-CRF模型,通过损失函数迭代优化模型,W参与网络模型的更新迭代,并不断调整超参数。
步骤(1)中,向量样本的向量维度选取100
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (2)

1.一种基于混合式迁移学习的命名实体识别方法,其特征在于,包括以下步骤:
(1)数据预处理
获取源域数据集
Figure FDA0003205493780000011
与目标域数据集
Figure FDA0003205493780000012
(m,n分别表示源域数据集和目标域数据集的样例数,m>n),获取数据集后进行清洗、整理,使用jieba对文本进行分词,用word2vec将每个样本转换成词向量样本。
(2)实例迁移
针对每一个目标域数据集样本
Figure FDA0003205493780000013
计算
Figure FDA0003205493780000014
与源域数据集中所有样本在不同度量下的相似度距离D∈Rn×m×j(j为选取的相似度距离度量方法种类),通过数据引力计算得到最终权重值P∈Rn×m×j,权值按降序排列后,由最佳迁移数来确定k个最相似的样本,即最终的迁移样本Tk,将其迁移至目标域数据集中得到扩充的目标域数据集Ttrans=T∪Tk
(3)模型预训练
使用源域数据集多次训练BiLSTM-CRF模型,选取性能最好的参数W并保留。
(4)模型迁移
构建新的BiLSTM-CRF模型,用预训练模型保留的参数W做参数初始化;用扩充后的目标域数据集Ttrans训练新的Bi-LSTM-CRF模型,通过损失函数迭代优化模型,W参与网络模型的更新迭代,并不断调整超参数。
2.根据权利要求1所述的一种基于混合式迁移学习的命名实体识别方法,其特征在于:所述步骤(1)中,向量样本的向量维度选取100。
CN202110915830.7A 2021-08-10 2021-08-10 一种基于混合式迁移学习的命名实体识别方法 Pending CN113792551A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110915830.7A CN113792551A (zh) 2021-08-10 2021-08-10 一种基于混合式迁移学习的命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110915830.7A CN113792551A (zh) 2021-08-10 2021-08-10 一种基于混合式迁移学习的命名实体识别方法

Publications (1)

Publication Number Publication Date
CN113792551A true CN113792551A (zh) 2021-12-14

Family

ID=78875814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110915830.7A Pending CN113792551A (zh) 2021-08-10 2021-08-10 一种基于混合式迁移学习的命名实体识别方法

Country Status (1)

Country Link
CN (1) CN113792551A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117610574A (zh) * 2024-01-23 2024-02-27 广东省人民医院 一种基于跨域迁移学习的命名实体识别方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117610574A (zh) * 2024-01-23 2024-02-27 广东省人民医院 一种基于跨域迁移学习的命名实体识别方法和装置
CN117610574B (zh) * 2024-01-23 2024-04-26 广东省人民医院 一种基于跨域迁移学习的命名实体识别方法和装置

Similar Documents

Publication Publication Date Title
CN111159426B (zh) 一种基于图卷积神经网络的产业图谱融合方法
CN108388651B (zh) 一种基于图核和卷积神经网络的文本分类方法
WO2022083009A1 (zh) 一种基于异源数据差补融合的定制产品性能预测方法
WO2018218708A1 (zh) 一种基于深度学习的舆情热点类别划分方法
CN112699247A (zh) 一种基于多类交叉熵对比补全编码的知识表示学习框架
CN112560432A (zh) 基于图注意力网络的文本情感分析方法
CN109033129A (zh) 基于自适应权重的多源信息融合知识图谱表示学习方法
CN113128671B (zh) 一种基于多模态机器学习的服务需求动态预测方法及系统
CN110264372B (zh) 一种基于节点表示的主题社团发现方法
CN110928981A (zh) 一种文本标签体系搭建及完善迭代的方法、系统及存储介质
CN112800770A (zh) 一种基于异构图注意力网络的实体对齐方法
CN112287990A (zh) 一种基于在线学习的边云协同支持向量机的模型优化方法
CN108596204B (zh) 一种基于改进型scdae的半监督调制方式分类模型的方法
CN111695011B (zh) 一种基于张量表示的动态超图结构学习分类方法及系统
CN110765788A (zh) 一种基于隐式翻译模型的知识图谱嵌入方法
CN114118088A (zh) 基于超图卷积神经网络的文档级实体关系抽取方法及装置
CN110688484B (zh) 一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法
CN115114409A (zh) 一种基于软参数共享的民航不安全事件联合抽取方法
CN113792551A (zh) 一种基于混合式迁移学习的命名实体识别方法
CN110874392A (zh) 基于深度双向注意力机制的文本网络信息融合嵌入方法
CN114743029A (zh) 一种图像文本匹配的方法
US20220398450A1 (en) Automatically and efficiently generating search spaces for neural network
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法
CN110222737A (zh) 一种基于长短时记忆网络的搜索引擎用户满意度评估方法
CN117196033A (zh) 基于异构图神经网络的无线通信网络知识图谱表示学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211214