CN117807999A - 基于对抗学习的域自适应命名实体识别方法 - Google Patents
基于对抗学习的域自适应命名实体识别方法 Download PDFInfo
- Publication number
- CN117807999A CN117807999A CN202410228431.7A CN202410228431A CN117807999A CN 117807999 A CN117807999 A CN 117807999A CN 202410228431 A CN202410228431 A CN 202410228431A CN 117807999 A CN117807999 A CN 117807999A
- Authority
- CN
- China
- Prior art keywords
- named entity
- document
- text type
- entity recognition
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000006870 function Effects 0.000 claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 27
- 239000000284 extract Substances 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000002372 labelling Methods 0.000 claims description 12
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 230000008014 freezing Effects 0.000 claims description 6
- 238000007710 freezing Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 239000012634 fragment Substances 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims 1
- 238000010801 machine learning Methods 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于对抗学习的域自适应命名实体识别方法,所述方法包括:收集多类型文本的命名实体识别数据集;使用基于预训练语言模型的文档编码器对命名实体识别数据集中的文档进行特征编码,获得文档特征;把文档特征输入命名实体识别模块,预测实体,计算命名实体识别损失函数;把文档特征输入文本类型分类器,判断文本类型,计算文本类型分类损失函数;对文档编码器和文本类型分类器进行对抗学习,使文档编码器提取出域无关的文本特征;用文档编码器和命名实体识别模块进行命名实体识别。本发明创新性使用对抗学习的方式,通过文档编码器和文本类型分类器之间的对抗训练,使文档编码器提取出域无关的文档特征,实现域自适应命名实体识别。
Description
技术领域
本发明涉及深度学习和自然语言处理领域,尤其涉及一种基于对抗学习的域自适应命名实体识别方法。
背景技术
命名实体是指具有独立身份或特定类别的实体,如人名、地名、组织机构名、日期、时间、货币、百分比等。命名实体识别任务的目标是在给定的文本中,标注出这些命名实体的边界,并为每个实体分配正确的类别标签。
命名实体识别方法包括:①传统的规则和规则模板方法:在早期的命名实体识别研究中,人们使用手工设计的规则和规则模板来识别命名实体。②基于机器学习的方法:随着机器学习技术的发展,研究者开始使用机器学习算法来自动学习命名实体的识别模型。常用的机器学习算法包括最大熵模型、隐马尔可夫模型、条件随机场等。这些方法通过训练数据集来学习命名实体的特征和上下文信息,从而对新的文本进行命名实体识别。③基于深度学习的方法:近年来,深度学习技术在自然语言处理领域取得了显著的进展。在命名实体识别中,研究者开始使用深度学习模型,如循环神经网络、长短期记忆网络、卷积神经网络以及最近的预训练语言模型,来提高命名实体的识别性能。这些深度学习模型可以自动学习文本中的上下文信息和语义特征,从而更准确地识别命名实体。然而上述的方法都存在着域自适应能力弱的问题,例如在新闻文本上训练出的命名实体识别模型,在网络自媒体文本上的表现远差于其在新闻文本上的表现。然而我们不可能在实际中搜集所有类型的文本来训练模型,因此如何训练出一个具有域自适应能力的,对不同类型文本都性能优秀的命名实体识别模型是一个待解决的,有意义的问题。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明公开了基于对抗学习的域自适应命名实体识别方法。所述方法能够实现域自适应命名实体识别,相比现有方法,本方法创新性地使用对抗学习的方式,通过文档编码器和文本类型分类器之间的对抗训练,使文档编码器提取出域无关的文档特征,实现域自适应命名实体识别。
本发明的目的是通过如下技术方案实现的,基于对抗学习的域自适应命名实体识别方法,所述方法包括:
步骤1,收集多类型文本的命名实体识别数据集;
步骤2,使用基于预训练语言模型的文档编码器对命名实体识别数据集中的文档进行特征编码,获得文档特征;
步骤3,把文档特征输入命名实体识别模块,预测实体,计算命名实体识别损失函数;
步骤4,把文档特征输入文本类型分类器,判断文本类型,计算文本类型分类损失函数;
步骤5,对文档编码器和文本类型分类器进行对抗学习,使文档编码器提取出域无关的文本特征;
步骤6,用文档编码器和命名实体识别模块进行命名实体识别。
所述的收集多类型文本的命名实体识别数据集,包括以下步骤:
步骤101,收集现有的命名实体识别数据集,包括新闻报道、社交媒体帖子和科技论文,收集数据集并记录文本类型;
步骤102,扩充数据集,为命名实体识别数据集上的数据打上命名实体识别标注和文本类型标注。
所述的使用基于预训练语言模型的文档编码器对命名实体识别数据集中的文档进行特征编码,获得文档特征,包括以下步骤:
对文档进行分词,在句首和句尾加上起始标记“<CLS>”和结束标记“<SEP>”;用Bert-large的词嵌入模型将分词映射到低维连续的特征空间中;
分词后的文档为 ,其中第 /> 个词为 />,/> 表示文档中词的总数,/> 表示词嵌入的维度,/> 表示Bert-large预训练语言模型的词嵌入矩阵,则经过词嵌入后的文档表示为 />,表达式为:
;
其中表示起始标记“<CLS>”的词嵌入,/> 表示第 /> 个词 />的词嵌入,/> 表示结束标记“<SEP>”的词嵌入;
使用Bert-large预训练语言模型的多层Transformer网络对 进行特征提取,得到文档特征 />,表达式为:
;
其中 表示Bert-large预训练语言模型中Transformer网络的参数,/>表示用预训练语言模型Bert-large对文档进行特征编码输出的文档特征。
所述的把文档特征输入命名实体识别模块,预测实体,计算命名实体识别损失函数,包括以下步骤:
步骤301,构造实体预测特征矩阵;将所述的文档特征的维度在第0维度进行扩充,得到/>,在第1维度进行扩充,得到/>,将/>在第0维度复制n+2次和/>在第1维度复制n+2次后进行拼接,得到实体预测特征矩阵;所述的文档特征/>的数据结构是张量,张量是一种高维矩阵,维度指的是张量的各个方向上的长度,第0维度指的是第0个方向,第1维度指的是第1个方向,对张量在某个维度进行扩充,是指对张量在某个方向上增加一个维度;
步骤302,使用两个全连接层预测出实体类型概率向量矩阵,表达式为:
;
其中,和/>是可学习的参数,Relu和Softmax是激活函数,Softmax用于把向量归一化为概率向量,/>,/>是不包括负样本的实体类别数,/>中的元素/>表示第i个词到第j个词的片段是第k类实体的概率,/>表示第i个词到第j个词的片段是负样本的概率,负样本表示该词片段不构成一个实体;
步骤303,构造实体类型标注矩阵,表达式为:
;
其中,,是/>相同维度的张量,是实体类型标注矩阵;
步骤304,计算命名实体识别损失函数,表达式为:
;
其中,表示文档中词的总数,/>表示不包括负样本的实体类别数,/>表示命名实体识别损失函数。
所述的把文档特征输入文本类型分类器,判断文本类型,计算文本类型分类损失函数,包括以下步骤:
步骤401,预测文本类型;使用两个嵌套的全连接层对所述的起始标记“<CLS>”的词嵌入进行映射,获得对应的文本类型概率向量,表达式为:
;
其中,和/>是可学习的参数,ReLU和Softmax是激活函数,表示文本类型概率向量,/>表示文本类型的总数量;
步骤402,构造文本类型标注向量;根据收集到的多类型文本的命名实体识别数据集,对每个文本进行文本类型标注,得到文本类型标注向量,表达式为:
;
其中,表示文本类型标注向量;
步骤403,计算文本类型分类损失函数;使用交叉熵损失函数计算文本类型分类器的损失,表达式为:
;
其中,表示文本类型分类损失函数,/>表示文本类型为第i类的概率。
所述的对文档编码器和文本类型分类器进行对抗学习,使文档编码器提取出域无关的文本特征,包括以下步骤:
步骤501,从命名实体识别数据集中随机采样一批数据,计算命名实体识别损失函数,计算文本类型分类损失函数/>;
步骤502,冻结文档编码器和命名实体识别模块的参数,使用Adam优化算法对文本类型分类损失函数进行优化,使得文本类型分类器对不同类型的输入文本区分能力更强;
步骤503,冻结文本类型分类器,使用Adam优化算法对命名实体识别损失函数减去文本类型分类损失函数/>函数的差值/>,进行优化,使得命名实体识别模块的实体预测能力更强,且文档编码器能够提取出更加文本类型无关的特征;
重复步骤501至502,使文档编码器具备提取出域无关的文本特征的能力。
与现有方法相比,本发明方法的优点在于:本技术提供了,基于对抗学习的域自适应命名实体识别方法。本方法创新性使用对抗学习的方式,通过文档编码器和文本类型分类器之间的对抗训练,使文档编码器提取出域无关的文档特征,实现域自适应命名实体识别。
附图说明
图1示出了本发明实施例的流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本实施例中,假设我们在构建大规模知识图谱。这需要从互联网上爬取海量的文本并对其进行结构化。文本结构化的过程离不开命名实体识别,对这个任务可以使用我们提出的基于对抗学习的域自适应命名实体识别方法。所述方法可以用于医疗领域的命名实体识别,从医疗领域相关文本中识别出相应的疾病、药品、症状等命名实体。
由此,如图1所示,基于对抗学习的域自适应命名实体识别方法,所述方法包括:
步骤1,收集多类型文本的命名实体识别数据集;
步骤2,使用基于预训练语言模型的文档编码器对命名实体识别数据集中的文档进行特征编码,获得文档特征;
步骤3,把文档特征输入命名实体识别模块,预测实体,计算命名实体识别损失函数;
步骤4,把文档特征输入文本类型分类器,判断文本类型,计算文本类型分类损失函数;
步骤5,对文档编码器和文本类型分类器进行对抗学习,使文档编码器提取出域无关的文本特征;
步骤6,用文档编码器和命名实体识别模块进行命名实体识别。
所述的收集多类型文本的命名实体识别数据集,包括以下步骤:
步骤101,收集现有的命名实体识别数据集,包括新闻报道、社交媒体帖子和科技论文,收集数据集并记录文本类型;
步骤102,扩充数据集,为命名实体识别数据集上的数据打上命名实体识别标注和文本类型标注。
所述的使用基于预训练语言模型的文档编码器对命名实体识别数据集中的文档进行特征编码,获得文档特征,包括以下步骤:
对文档进行分词,在句首和句尾加上起始标记“<CLS>”和结束标记“<SEP>”;用Bert-large的词嵌入模型将分词映射到低维连续的特征空间中;
分词后的文档为 ,其中第 /> 个词为 />,/> 表示文档中词的总数,/> 表示词嵌入的维度,/> 表示Bert-large预训练语言模型的词嵌入矩阵,则经过词嵌入后的文档表示为 />,表达式为:
;
其中表示起始标记“<CLS>”的词嵌入,/> 表示第 /> 个词 />的词嵌入,/> 表示结束标记“<SEP>”的词嵌入;
使用Bert-large预训练语言模型的多层Transformer网络对 进行特征提取,得到文档特征 />,表达式为:
;
其中 表示Bert-large预训练语言模型中Transformer网络的参数,/>表示用预训练语言模型Bert-large对文档进行特征编码输出的文档特征。
Bert(Bidirectional Encoder Representations from Transformers)是一种预训练的语言模型,由Google研究团队在2018年提出。Bert的设计目标是通过在大规模无标签文本数据上进行预训练,学习通用的语言表示,然后在各种下游自然语言处理任务上进行微调,以提高模型性能。
Bert采用了Transformer架构,其中包含多个自注意力机制层和前馈神经网络层。与传统的单向语言模型不同,Bert引入了双向上下文建模,即在预训练过程中同时利用了左侧和右侧的上下文信息。这使得Bert能够更好地理解词语在句子中的含义和语境。
所述的把文档特征输入命名实体识别模块,预测实体,计算命名实体识别损失函数,包括以下步骤:
步骤301,构造实体预测特征矩阵;将所述的文档特征的维度在第0维度进行扩充,得到/>,在第1维度进行扩充,得到/>,将/>在第0维度复制n+2次和/>在第1维度复制n+2次后进行拼接,得到实体预测特征矩阵;
步骤302,使用两个全连接层预测出实体类型概率向量矩阵,表达式为:
;
其中,和/>是可学习的参数,Relu和Softmax是激活函数,Softmax用于把向量归一化为概率向量,/>,/>是不包括负样本的实体类别数,/>中的元素/>表示第i个词到第j个词的片段是第k类实体的概率,/>表示第i个词到第j个词的片段是负样本的概率,负样本表示该词片段不构成一个实体;
步骤303,构造实体类型标注矩阵,表达式为:
;
其中,,是/>相同维度的张量,是实体类型标注矩阵;
步骤304,计算命名实体识别损失函数,表达式为:
;
其中,表示文档中词的总数,/>表示不包括负样本的实体类别数,/>表示命名实体识别损失函数。
所述的把文档特征输入文本类型分类器,判断文本类型,计算文本类型分类损失函数,包括以下步骤:
步骤401,预测文本类型;使用两个嵌套的全连接层对所述的起始标记“<CLS>”的词嵌入进行映射,获得对应的文本类型概率向量,表达式为:
;
其中,和/>是可学习的参数,ReLU和Softmax是激活函数,表示文本类型概率向量,/>表示文本类型的总数量;
步骤402,构造文本类型标注向量;根据收集到的多类型文本的命名实体识别数据集,对每个文本进行文本类型标注,得到文本类型标注向量,表达式为:
;
其中,表示文本类型标注向量;
步骤403,计算文本类型分类损失函数;使用交叉熵损失函数计算文本类型分类器的损失,表达式为:
;
其中,表示文本类型分类损失函数,/>表示文本类型为第i类的概率。
域自适应(Domain Adaptation)是一种机器学习方法,旨在解决在训练数据和测试数据的分布不匹配情况下的学习问题。在实际应用中,由于不同领域或不同环境下数据的差异,训练数据和测试数据的分布可能存在偏移,从而导致在测试阶段的性能下降。
域自适应的目标是通过将源域(训练数据的来源域)上学习到的知识迁移到目标域(测试数据的所属域),以提高在目标域上的泛化性能。
所述的对文档编码器和文本类型分类器进行对抗学习,使文档编码器提取出域无关的文本特征,包括以下步骤:
步骤501,从命名实体识别数据集中随机采样一批数据,计算命名实体识别损失函数,计算文本类型分类损失函数/>;
步骤502,冻结文档编码器和命名实体识别模块的参数,使用Adam优化算法对文本类型分类损失函数进行优化,使得文本类型分类器对不同类型的输入文本区分能力更强;
步骤503,冻结文本类型分类器,使用Adam优化算法对命名实体识别损失函数减去文本类型分类损失函数/>函数的差值/>,进行优化,使得命名实体识别模块的实体预测能力更强,且文档编码器能够提取出更加文本类型无关的特征;
重复步骤501至502,使文档编码器具备提取出域无关的文本特征的能力。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
Claims (6)
1.基于对抗学习的域自适应命名实体识别方法,其特征在于,所述方法包括:
步骤1,收集多类型文本的命名实体识别数据集;
步骤2,使用基于预训练语言模型的文档编码器对命名实体识别数据集中的文档进行特征编码,获得文档特征;
步骤3,把文档特征输入命名实体识别模块,预测实体,计算命名实体识别损失函数;
步骤4,把文档特征输入文本类型分类器,判断文本类型,计算文本类型分类损失函数;
步骤5,对文档编码器和文本类型分类器进行对抗学习,使文档编码器提取出域无关的文本特征;
步骤6,用文档编码器和命名实体识别模块进行命名实体识别。
2.根据权利要求1所述的基于对抗学习的域自适应命名实体识别方法,其特征在于,所述的收集多类型文本的命名实体识别数据集,包括以下步骤:
步骤101,收集现有的命名实体识别数据集,包括新闻报道、社交媒体帖子和科技论文,收集数据集并记录文本类型;
步骤102,扩充数据集,为命名实体识别数据集上的数据打上命名实体识别标注和文本类型标注。
3.根据权利要求2所述的基于对抗学习的域自适应命名实体识别方法,其特征在于,所述的使用基于预训练语言模型的文档编码器对命名实体识别数据集中的文档进行特征编码,获得文档特征,包括以下步骤:
对文档进行分词,在句首和句尾加上起始标记“<CLS>”和结束标记“<SEP>”;用Bert-large的词嵌入模型将分词映射到低维连续的特征空间中;
分词后的文档为 ,其中第 /> 个词为 />,/> 表示文档中词的总数,/> 表示词嵌入的维度,/> 表示Bert-large预训练语言模型的词嵌入矩阵,则经过词嵌入后的文档表示为 />,表达式为:
;
其中表示起始标记“<CLS>”的词嵌入,/> 表示第 /> 个词 />的词嵌入, 表示结束标记“<SEP>”的词嵌入;
使用Bert-large预训练语言模型的多层Transformer网络对 进行特征提取,得到文档特征 />,表达式为:
;
其中 表示Bert-large预训练语言模型中Transformer网络的参数,/>表示用预训练语言模型Bert-large对文档进行特征编码输出的文档特征。
4.根据权利要求3所述的基于对抗学习的域自适应命名实体识别方法,其特征在于,所述的把文档特征输入命名实体识别模块,预测实体,计算命名实体识别损失函数,包括以下步骤:
步骤301,构造实体预测特征矩阵;将所述的文档特征的维度在第0维度进行扩充,得到/>,在第1维度进行扩充,得到/>,将/>在第0维度复制n+2次和/>在第1维度复制n+2次后进行拼接,得到实体预测特征矩阵;所述的文档特征/>的数据结构是张量,张量是一种高维矩阵,维度指的是张量的各个方向上的长度,第0维度指的是第0个方向,第1维度指的是第1个方向,对张量在某个维度进行扩充,是指对张量在某个方向上增加一个维度;
步骤302,使用两个全连接层预测出实体类型概率向量矩阵,表达式为:
;
其中,和/>是可学习的参数,Relu和Softmax是激活函数,Softmax用于把向量归一化为概率向量,/>,/>是不包括负样本的实体类别数,中的元素/>表示第i个词到第j个词的片段是第k类实体的概率,/>表示第i个词到第j个词的片段是负样本的概率,负样本表示该词片段不构成一个实体;
步骤303,构造实体类型标注矩阵,表达式为:
;
其中,,是/>相同维度的张量,是实体类型标注矩阵;
步骤304,计算命名实体识别损失函数,表达式为:
;
其中,表示文档中词的总数,/>表示不包括负样本的实体类别数,/>表示命名实体识别损失函数。
5.根据权利要求4所述的基于对抗学习的域自适应命名实体识别方法,其特征在于,所述的把文档特征输入文本类型分类器,判断文本类型,计算文本类型分类损失函数,包括以下步骤:
步骤401,预测文本类型;使用两个嵌套的全连接层对所述的起始标记“<CLS>”的词嵌入进行映射,获得对应的文本类型概率向量,表达式为:
;
其中,和/>是可学习的参数,ReLU和Softmax是激活函数,表示文本类型概率向量,/>表示文本类型的总数量;
步骤402,构造文本类型标注向量;根据收集到的多类型文本的命名实体识别数据集,对每个文本进行文本类型标注,得到文本类型标注向量,表达式为:
;
其中,表示文本类型标注向量;
步骤403,计算文本类型分类损失函数;使用交叉熵损失函数计算文本类型分类器的损失,表达式为:
;
其中,表示文本类型分类损失函数,/>表示文本类型为第i类的概率。
6.根据权利要求5所述的基于对抗学习的域自适应命名实体识别方法,其特征在于,所述的对文档编码器和文本类型分类器进行对抗学习,使文档编码器提取出域无关的文本特征,包括以下步骤:
步骤501,从命名实体识别数据集中随机采样一批数据,计算命名实体识别损失函数,计算文本类型分类损失函数/>;
步骤502,冻结文档编码器和命名实体识别模块的参数,使用Adam优化算法对文本类型分类损失函数进行优化,使得文本类型分类器对不同类型的输入文本区分能力更强;
步骤503,冻结文本类型分类器,使用Adam优化算法对命名实体识别损失函数减去文本类型分类损失函数/>函数的差值/>,进行优化,使得命名实体识别模块的实体预测能力更强,且文档编码器能够提取出更加文本类型无关的特征;
重复步骤501至502,使文档编码器具备提取出域无关的文本特征的能力。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410228431.7A CN117807999B (zh) | 2024-02-29 | 2024-02-29 | 基于对抗学习的域自适应命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410228431.7A CN117807999B (zh) | 2024-02-29 | 2024-02-29 | 基于对抗学习的域自适应命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117807999A true CN117807999A (zh) | 2024-04-02 |
CN117807999B CN117807999B (zh) | 2024-05-10 |
Family
ID=90430496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410228431.7A Active CN117807999B (zh) | 2024-02-29 | 2024-02-29 | 基于对抗学习的域自适应命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117807999B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111222339A (zh) * | 2020-01-13 | 2020-06-02 | 华南理工大学 | 一种基于对抗多任务学习的医疗咨询命名实体识别方法 |
CN112801010A (zh) * | 2021-02-07 | 2021-05-14 | 华南理工大学 | 一种针对实际ocr场景下的视觉富文档信息抽取方法 |
US20210149993A1 (en) * | 2019-11-15 | 2021-05-20 | Intuit Inc. | Pre-trained contextual embedding models for named entity recognition and confidence prediction |
KR20220051575A (ko) * | 2020-10-19 | 2022-04-26 | 조선대학교산학협력단 | 딥러닝 기반의 영화 장면 생성 방법. |
CN114462409A (zh) * | 2022-01-28 | 2022-05-10 | 南京审计大学 | 一种基于对抗训练的审计领域命名实体识别方法 |
US20220237378A1 (en) * | 2021-01-25 | 2022-07-28 | Royal Bank Of America | System and method for natural language processing with pretrained language models |
CN116167378A (zh) * | 2023-02-16 | 2023-05-26 | 广东工业大学 | 一种基于对抗迁移学习的命名实体识别方法及系统 |
KR20230099269A (ko) * | 2021-12-27 | 2023-07-04 | 현대자동차주식회사 | 개체명 인식 시스템 및 개체명 인식 방법 |
CN116522945A (zh) * | 2023-05-29 | 2023-08-01 | 新疆大学 | 一种食品安全领域中命名实体的识别模型和方法 |
CN116644751A (zh) * | 2023-05-30 | 2023-08-25 | 哈尔滨工程大学 | 基于跨度对比学习的跨域命名实体识别方法、设备、存储介质和产品 |
CN116776876A (zh) * | 2023-07-11 | 2023-09-19 | 武汉科技大学 | 一种基于InterFormer-BERT模型和插入特殊标记的中文命名实体识别方法 |
WO2023178802A1 (zh) * | 2022-03-22 | 2023-09-28 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、设备和计算机可读存储介质 |
CN116956924A (zh) * | 2023-07-27 | 2023-10-27 | 山东新一代信息产业技术研究院有限公司 | 基于对比学习的命名实体识别方法及系统 |
CN117236335A (zh) * | 2023-11-13 | 2023-12-15 | 江西师范大学 | 基于提示学习的两阶段命名实体识别方法 |
US20240028631A1 (en) * | 2021-07-14 | 2024-01-25 | NEC Laboratories Europe GmbH | Method and system for a semantic textual similarity search |
-
2024
- 2024-02-29 CN CN202410228431.7A patent/CN117807999B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210149993A1 (en) * | 2019-11-15 | 2021-05-20 | Intuit Inc. | Pre-trained contextual embedding models for named entity recognition and confidence prediction |
CN111222339A (zh) * | 2020-01-13 | 2020-06-02 | 华南理工大学 | 一种基于对抗多任务学习的医疗咨询命名实体识别方法 |
KR20220051575A (ko) * | 2020-10-19 | 2022-04-26 | 조선대학교산학협력단 | 딥러닝 기반의 영화 장면 생성 방법. |
US20220237378A1 (en) * | 2021-01-25 | 2022-07-28 | Royal Bank Of America | System and method for natural language processing with pretrained language models |
CN112801010A (zh) * | 2021-02-07 | 2021-05-14 | 华南理工大学 | 一种针对实际ocr场景下的视觉富文档信息抽取方法 |
US20240028631A1 (en) * | 2021-07-14 | 2024-01-25 | NEC Laboratories Europe GmbH | Method and system for a semantic textual similarity search |
KR20230099269A (ko) * | 2021-12-27 | 2023-07-04 | 현대자동차주식회사 | 개체명 인식 시스템 및 개체명 인식 방법 |
CN114462409A (zh) * | 2022-01-28 | 2022-05-10 | 南京审计大学 | 一种基于对抗训练的审计领域命名实体识别方法 |
WO2023178802A1 (zh) * | 2022-03-22 | 2023-09-28 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、设备和计算机可读存储介质 |
CN116167378A (zh) * | 2023-02-16 | 2023-05-26 | 广东工业大学 | 一种基于对抗迁移学习的命名实体识别方法及系统 |
CN116522945A (zh) * | 2023-05-29 | 2023-08-01 | 新疆大学 | 一种食品安全领域中命名实体的识别模型和方法 |
CN116644751A (zh) * | 2023-05-30 | 2023-08-25 | 哈尔滨工程大学 | 基于跨度对比学习的跨域命名实体识别方法、设备、存储介质和产品 |
CN116776876A (zh) * | 2023-07-11 | 2023-09-19 | 武汉科技大学 | 一种基于InterFormer-BERT模型和插入特殊标记的中文命名实体识别方法 |
CN116956924A (zh) * | 2023-07-27 | 2023-10-27 | 山东新一代信息产业技术研究院有限公司 | 基于对比学习的命名实体识别方法及系统 |
CN117236335A (zh) * | 2023-11-13 | 2023-12-15 | 江西师范大学 | 基于提示学习的两阶段命名实体识别方法 |
Non-Patent Citations (3)
Title |
---|
ZHE DONG,RUOQI SHAO等: "Named entity recognition in the food field based on BERT and Adversarial training", 《2021 33RD CHINESE CONTROL AND DECISION CONFERENCE(CCDC)》, 30 November 2021 (2021-11-30), pages 2219 - 2226 * |
刘冰然: "基于seq2seq的神经问题生成方法优化", 《中国优秀硕士学位论文全文数据库(电子期刊)》, 15 January 2021 (2021-01-15), pages 138 - 2452 * |
李源;马磊;邵党国;袁梅宇;张名芳;: "用于社交媒体的中文命名实体识别", 中文信息学报, no. 08, 15 August 2020 (2020-08-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN117807999B (zh) | 2024-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108388560B (zh) | 基于语言模型的gru-crf会议名称识别方法 | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN108536754A (zh) | 基于blstm和注意力机制的电子病历实体关系抽取方法 | |
CN113673254B (zh) | 基于相似度保持的知识蒸馏的立场检测方法 | |
CN111984791B (zh) | 一种基于注意力机制的长文分类方法 | |
CN113705238B (zh) | 基于bert和方面特征定位模型的方面级情感分析方法及系统 | |
CN109918647A (zh) | 一种安全领域命名实体识别方法及神经网络模型 | |
CN113806547B (zh) | 一种基于图模型的深度学习多标签文本分类方法 | |
CN114818717B (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN111984780A (zh) | 多意图识别模型训练方法和多意图识别方法及相关装置 | |
CN112989830B (zh) | 一种基于多元特征和机器学习的命名实体识别方法 | |
US20230289528A1 (en) | Method for constructing sentiment classification model based on metaphor identification | |
CN116383399A (zh) | 一种事件舆情风险预测方法及系统 | |
CN115688752A (zh) | 一种基于多语义特征的知识抽取方法 | |
CN114757183B (zh) | 一种基于对比对齐网络的跨领域情感分类方法 | |
CN113869055A (zh) | 基于深度学习的电网项目特征属性识别方法 | |
CN111339440B (zh) | 面向新闻文本基于层级状态神经网络的社会情绪排序方法 | |
CN116245107A (zh) | 电力审计文本实体识别方法、装置、设备及存储介质 | |
CN116049394A (zh) | 一种基于图神经网络长文本相似度对比方法 | |
CN117764084A (zh) | 基于多头注意力机制与多模型融合的短文本情感分析方法 | |
CN115659947A (zh) | 基于机器阅读理解及文本摘要的多项选择答题方法及系统 | |
CN115292490A (zh) | 一种用于政策解读语义的分析算法 | |
CN113051886B (zh) | 一种试题查重方法、装置、存储介质及设备 | |
CN114048314A (zh) | 一种自然语言隐写分析方法 | |
Nouhaila et al. | Arabic sentiment analysis based on 1-D convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |