CN111597810A - 一种半监督解耦的命名实体识别方法 - Google Patents

一种半监督解耦的命名实体识别方法 Download PDF

Info

Publication number
CN111597810A
CN111597810A CN202010286176.3A CN202010286176A CN111597810A CN 111597810 A CN111597810 A CN 111597810A CN 202010286176 A CN202010286176 A CN 202010286176A CN 111597810 A CN111597810 A CN 111597810A
Authority
CN
China
Prior art keywords
information
migration
sentence
characteristic information
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010286176.3A
Other languages
English (en)
Other versions
CN111597810B (zh
Inventor
郝志峰
吕迪
温雯
蔡瑞初
陈炳丰
李梓健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202010286176.3A priority Critical patent/CN111597810B/zh
Publication of CN111597810A publication Critical patent/CN111597810A/zh
Application granted granted Critical
Publication of CN111597810B publication Critical patent/CN111597810B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种半监督解耦的命名实体识别方法,利用语法特征编码器及语义特征编码器来提取句子的语法特征信息以及语义结构特征信息;为确保语法和语义结构特征信息的有效性,增设句子信息解码器,利用提取出来的语法和语义结构特征信息重新解码出句子。并通过第一互信息计算器最小化语法和语义之间的互信息,使得两个特征编码器提取的信息交集部分越来越少;同时为防止信息都偏向于其中的语法特征提取器或者语义特征编码器而导致另一个特征编码器提取出来的信息为无效信息,分别利用最大化语法和句子信息解码器之间的互信息和最大化语义和句子信息编码器之间的互信息,以此有效提高命名实体识别模型的性能,提高命名实体的识别准确度。

Description

一种半监督解耦的命名实体识别方法
技术领域
本发明涉及数据挖掘、深度学习和神经网络技术领域,尤其涉及一种半监督解耦的命名实体识别方法。
背景技术
近年来,随着深度学习技术的迅速发展,深度学习在各行业都有许多给人们提供许多便利的应用,例如高铁站的人脸识别自动过闸机,车牌检测系统等。命名实体识别是自然语言处理的一个基础服务,其目的是识别句子中的人名、地名、组织机构等各种实体。由于这些命名实体数量不断增加,通常不可能在词典中穷尽列出,且其构成方法具有各自的一些规律性,因而,通常把对这些词的识别从词汇形态处理(如汉语切分)任务中独立处理,称为命名实体识别。在如今许多自然语言处理的人工智能应用中,命名实体识别是所有涉及自然语言处理领域工作必须首选攻克的难题。因为命名实体识别是从句子中提取对人们有用的信息,通过提取有效的关键词,才能更好应用于其他上层任务。例如智能客服,它必须识别出有效信息,方可作出符合人们期望的应答。目前在命名实体识别领域中,深度学习技术在其上面的表现尤其优秀,深度学习技术利用神经网络通过大量的标签数据充分拟合数据分布情况,可以有效提取句子的特征信息,避免花费大量时间在人工提取特征等类似的特征工程上,但是深度学习想要充分拟合数据,则需要大量的标签数据,在现实生活中,如果需要给数据打标签,不但效率低下并且需要浪费许多时间以及金钱。因此我们可以利用迁移学习,通过先在标签数据量较大的数据集上训练模型,然后通过迁移方法把学习到的“知识”迁移到标签数据量少的数据集上,从而达到就算标签数据量少的情况下我们的模型算法也能有较好的性能。
迁移学习一直是深度学习领域的一个难题,近年来在计算机视觉方面有很多关于迁移学习的工作,但是在序列数据上的迁移学习相关工作却很少,因为序列数据上进行迁移所遇到的困难和挑战对比于在图片数据上进行迁移来说会更加大,这导致了文本序列上迁移的工作很少。因此如何利用迁移源数据的规律去预测迁移目标数据中的实体,建立一个任务是命名实体识别的文本序列数据迁移模型具有重要的意义。
发明内容
本发明为解决现有的命名实体识别方法在标签数据不大的情况下,其识别效果较差的问题,提供了一种半监督解耦的命名实体识别方法。
为实现以上发明目的,而采用的技术手段是:
一种半监督解耦的命名实体识别方法,包括以下步骤:
S1.获取迁移源文本数据集及迁移目标文本数据集,并对其进行预处理;
S2.构建任务为命名实体识别的文本序列数据迁移模型;
S3.对所述文本序列数据迁移模型进行训练及测试;
S4.利用训练好的文本序列数据迁移模型进行命名实体识别。
优选的,步骤S1所述的预处理步骤具体包括:
S11.将所述迁移源文本数据集和迁移目标文本数据集中的所有句子中的单词转化为小写字母,并根据单词的出现次数由高到低进行排序,剔除出现频率最高的前N位,N为正整数,剩下的单词作为词典,即得到单词字典;
S12.划分具体的迁移方向,以迁移方向为单位,把迁移源文本数据和迁移目标文本数据两两配对,建立字符字典;
S13.建立迁移源文本数据集、迁移目标文本数据集对应的标签字典,并将对应的标签转化为标签字典上的索引号;
S14.把迁移源文本数据集和迁移目标文本数据集的所有句子中的单词转化为单词字典中的索引号,并且把每个句子长度都填充为一样的长度,即得到单词级输入;
S15.把迁移源文本数据集和迁移目标文本数据集的所有句子中的单词所对应的字符转化为字符字典的索引号,并将每个单词都填充为一样的单词长度,再将句子填充为一样的长度,即得到字符级输入。
优选的,所述步骤S1还包括将迁移源文本数据集划分为迁移源训练集、迁移源测试集,将迁移目标文本数据集划分为迁移目标训练集、迁移目标测试集。
优选的,步骤S2所述的文本序列数据迁移模型具体包括迁移源域和迁移目标域共享的语法特征编码器、迁移源域和迁移目标域共享的语义特征编码器、句子信息解码器、第一互信息计算器、第二互信息计算器、第三互信息计算器、标签分类器、领域判别器及特征输入器;其中:
特征输入器的输入为预处理得到的单词级数据及字符级数据,其通过一卷积神经网络将字符级数据提取得到字符级特征信息,随后将字符级特征信息及单词级特征信息拼接在一起,得到句子初始特征信息并输出;语法特征编码器的输入为句子初始特征信息,用于提取其语法特征信息;语义特征编码器的输入为句子初始特征信息,用于提取其语义结构特征信息;句子信息解码器的输入为语法特征信息及语义结构特征信息,基于所述语法特征信息及语义结构特征信息解码得到句子特征信息;领域判别器的输入为语义结构特征信息;第一互信息计算器的输入为语法特征信息与语义结构特征信息,用于计算语法特征信息与语义结构特征信息之间的最小互信息;第二互信息计算器的输入为语法特征信息与句子特征信息,用于计算语法特征信息与句子特征信息之间的最大互信息;第三互信息计算器的输入为语义结构特征信息与句子特征信息,用于计算语义结构特征信息与句子特征信息之间的最大互信息;标签分类器的输入为语法特征信息以及语义结构特征信息,基于所述语法特征信息以及语义结构特征信息得到命名实体识别的具体标签。
优选的,所述语法特征编码器及语义特征编码器采用维度为100维的长短时记忆神经网络;句子信息解码器采用全连接神经网络;领域判别器采用两层全连接神经网络,第一层为150维,第二层为100维,标签分类器采用CRF分类器,第一~三互信息计算器采用互信息神经网络计算器。
优选的,步骤S3中对所述文本序列数据迁移模型进行训练的具体步骤包括:
S31.将迁移源训练集和迁移目标训练集打乱;
S32.将特征提取部分所对应的神经网络的参数固定不动,分别从迁移源训练集和迁移目标训练集中取出一批训练数据,批量大小均为B,输入到第一互信息计算器~第三互信息计算器中进行训练;所述特征提取部分包括语法特征编码器、语义特征编码器、句子信息解码器;
S33.所述第一互信息计算器~第三互信息计算器的参数固定不动,分别从迁移源训练集和迁移目标训练集中取出一批数据,批量大小均为B,输入到所述文本序列数据迁移模型中,训练所述特征提取部分;其中的标签判别器输出整个句子每个单词的标签预测值序列ylabel_pre,领域判别器输出一个预测值ydomain_pre,ylabel_pre是一个B×L×C的张量,ydomain_pre是一个B×1的张量;其中B为批次大样本数量,L为句子长度,C是命名实体识别任务的标签数量;第一互信息计算器~第三互信息计算器计算输出的互信息分别为mistru_syn、mistru_decoder、misyn_decoder,句子信息解码器输出句子中每个单词的词嵌入矩阵的信息yinfo_decoder,yinfo_decoder是一个B×L×D的张量,其中D为词嵌入矩阵的维度;根据以上输出结果计算如下损失值:
标签分类器的损失值计算:
Figure BDA0002448597800000041
z为输入的句子,Y(z)为句子序列标签预测的所有结果集合,ψ为计算CRF的函数;
领域判别器的损失值计算:
Figure BDA0002448597800000042
句子信息解码器的损失值计算
Figure BDA0002448597800000043
总的损失函数为:
total_loss=losslabel+λ·lossdecoder+β·lossdomain+ω·(mistru_syn-mistru_decoder-misyn_decoder)
其中λ、β、ω是一个用作调整的超参数;
S34.计算出总的损失值后就算梯度利用梯度反向传播算法更新模型参数;
S35.重复步骤S31~S34直至所述文本序列数据迁移模型收敛,收敛的标准是模型总的损失值基本不变。
优选的,步骤S3中对所述文本序列数据迁移模型进行测试的具体步骤包括:
将迁移目标测试集全部输入到所述文本序列数据迁移模型,得到预测结果,将预测结果和标注结果进行比较,并计算其衡量指标F1Score。
与现有技术相比,本发明技术方案的有益效果是:
本发明的半监督解耦的命名实体识别方法,通过互信息和神经网络来提取不同数据集之间的不同标签实体所对应的语法和语义结构特征信息,从而提升模型的迁移效果,具体是利用语法特征编码器及语义特征编码器来提取句子的语法特征信息以及语义结构特征信息;为确保语法和语义结构特征信息的有效性,通过增加一个句子信息解码器,利用提取出来的语法和语义结构特征信息重新解码出句子。由于语法和语义结构信息从同一个特征空间提取出来,为了解耦这两个特征信息,通过第一互信息计算器最小化语法和语义之间的互信息,使得两个特征编码器提取的信息交集部分越来越少;同时为了防止信息都偏向于其中的语法特征提取器或者语义特征编码器而导致另一个特征编码器提取出来的信息为无效信息,分别利用第二、第三互信息计算器最大化语法和句子信息解码器之间的互信息和最大化语义和句子信息编码器之间的互信息,以此有效提高命名实体识别模型的性能,提高命名实体的识别准确度。
附图说明
图1为本发明的流程示意图。
图2为本发明的模型结构图。
图3为实施例中不同的数据集句子所代表的语法树图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
本实施例提供了一种半监督解耦的命名实体识别方法。
由于不同命名实体识别的数据集中存在一些不同的标签,因此不能简单的套用目前现有的迁移方法,例如在图片上进行迁移的方法能参考借鉴,而不能完全照用。一般来数据较多的数据集为迁移源数据集,数据量较少的数据集为迁移目标数据集。通过观察多个不同的迁移源数据集和迁移目标数据集,可以发现这些不同数据集之间的标签数据存在的一定的规律,即不同标签实体之间的语法子结构是一致的,如图3所示,这是两个来源于不同的数据集句子所代表的语法树,source domain代表迁移源数据集,target domain代表迁移目标数据集。叶子节点代表英语单词,最深灰色的英语单词指明该单词组成一个实体。圈出来的部分就是相同的子结构。而决定标签实体属于什么类型的是语义信息,而不同标签实体之间的语法子结构就是迁移模型中可以进行迁移的“知识”,因为假如不同数据集之间的不同标签的语法子结构相似,只要提取到了这部分语法结构信息,然后再与迁移目标数据集上的语义信息相结合起来预测所对应的实体标签,就能提高模型的在迁移目标数据集上的效果。下面对本实施例的半监督解耦的命名实体识别方法进行相依说明,如图1所示,其包括以下步骤:
S1.获取迁移源文本数据集及迁移目标文本数据集,并对其进行预处理;随后将迁移源文本数据集划分为迁移源训练集、迁移源测试集,将迁移目标文本数据集划分为迁移目标训练集、迁移目标测试集;
由于原始数据为文本数据集,都是文字型数据,因此需通过预处理将其转化为数字形式的矩阵数据。关于预处理的具体步骤,本实施例举例说明如下:
设需预测的句子是omg@wethekings is playing a show at Stetson,其标签序列为{O,O,O,O,O,O,O,B-ORG},如下表1所示:
Figure BDA0002448597800000061
表1
S11.将所述迁移源文本数据集和迁移目标文本数据集中的所有句子中的单词转化为小写字母,并根据单词的出现次数由高到低进行排序,剔除出现频率最高的前20位,剩下的单词作为词典,即得到单词字典;
设单词词典如下表2所示,其中<PAD>是人为添加的单词,代表填充的意思,当需要填充到同样的句子长度是就需要使用<PAD>填充
Figure BDA0002448597800000062
Figure BDA0002448597800000071
表2
S12.划分具体的迁移方向,现在是ON->R1,以迁移方向为单位,把迁移源文本数据和迁移目标文本数据两两配对(注意迁移方向与数据集的顺序也有关,即R1->ON也是一种迁移方向),建立字符字典,如下表3所示;
索引号 字符
0 <PAD>
1 a
2 c
3 d
......... .........
28 A
......... .........
70 @
......... .........
表3
S13.建立迁移源文本数据集、迁移目标文本数据集对应的标签字典,并将对应的标签转化为标签字典上的索引号,如下表4所示(其中仅展示一个数据集的标签字典,应该要为每个数据集都建立对应的标签字典);
Figure BDA0002448597800000072
Figure BDA0002448597800000081
表4
S14.把迁移源文本数据集和迁移目标文本数据集的所有句子中的单词转化为单词字典中的索引号,并且把每个句子长度都填充为一样的长度,即得到单词级输入;
S15.把迁移源文本数据集和迁移目标文本数据集的所有句子中的单词所对应的字符转化为字符字典的索引号,并将每个单词都填充为一样的单词长度,再将句子填充为一样的长度,即得到字符级输入。
通过上面五个步骤数据预处理后,可以得到句子最后的输入格式如下表5所示(设处理单词输入所有句子都填充到长度为10,处理字符输入时每个单词都填充到长度为10,每个句子都填充到长度为10,而标签输入需和单词输入同样长度)
Figure BDA0002448597800000082
表5
S2.构建任务为命名实体识别的文本序列数据迁移模型,如图2所示,该模型的组成包括:迁移源域和迁移目标域共享的语法特征编码器(见图2右半部分)、迁移源域和迁移目标域共享的语义特征编码器(见图2右半部分)、句子信息解码器(见图2右半部分)、第一互信息计算器(见图2右半部分)、第二互信息计算器(见图2右半部分)、第三互信息计算器(见图2右半部分)、标签分类器、领域判别器(见图2左下半部分)及特征输入器(见图2左上半部分);其中:
特征输入器的输入为预处理得到的单词级数据及字符级数据,其通过一卷积神经网络将字符级数据提取得到字符级特征信息,随后将字符级特征信息及单词级特征信息拼接在一起,得到句子初始特征信息并输出;
语法特征编码器的输入为句子初始特征信息,用于提取其语法特征信息;
语义特征编码器的输入为句子初始特征信息,用于提取其语义结构特征信息;
句子信息解码器的输入为语法特征信息及语义结构特征信息,基于所述语法特征信息及语义结构特征信息解码得到句子特征信息;
领域判别器的输入为语义结构特征信息;然后再通过最小化语法和语义结构特征之间的互信息,就能分离语法信息集合和语义信息集合,从而指导语义特征提取器提取语义信息;
第一互信息计算器的输入为语法特征信息与语义结构特征信息,用于计算语法特征信息与语义结构特征信息之间的最小互信息;
第二互信息计算器的输入为语法特征信息与句子特征信息,用于计算语法特征信息与句子特征信息之间的最大互信息;
第三互信息计算器的输入为语义结构特征信息与句子特征信息,用于计算语义结构特征信息与句子特征信息之间的最大互信息;
标签分类器的输入为语法特征信息以及语义结构特征信息,基于所述语法特征信息以及语义结构特征信息得到命名实体识别的具体标签。
其中语法特征编码器及语义特征编码器均采用维度为100维的长短时记忆神经网络;句子信息解码器采用全连接神经网络;领域判别器采用两层全连接神经网络,第一层为150维,第二层为100维,标签分类器采用CRF分类器,第一~三互信息计算器采用现有网上开源的互信息神经网络计算器。
S3.对所述文本序列数据迁移模型进行训练及测试;
其中模型的训练分为两个阶段,首先互信息解耦语法语义训练阶段,再为语法与语义信息的特征提取训练阶段,具体步骤如下:
S31.将迁移源训练集和迁移目标训练集打乱;
S32.将特征提取部分所对应的神经网络的参数固定不动,分别从迁移源训练集和迁移目标训练集中取出一批训练数据,批量大小均为B,输入到第一互信息计算器~第三互信息计算器中进行训练;所述特征提取部分包括语法特征编码器、语义特征编码器、句子信息解码器;
S33.所述第一互信息计算器~第三互信息计算器的参数固定不动,分别从迁移源训练集和迁移目标训练集中取出一批数据,批量大小均为B,输入到所述文本序列数据迁移模型中,训练所述特征提取部分;其中的标签判别器输出整个句子每个单词的标签预测值序列ylabel_pre,领域判别器输出一个预测值ydomain_pre,ylabel_pre是一个B×L×C的张量,ydomain_pre是一个B×1的张量;其中B为批次大样本数量,L为句子长度,C是命名实体识别任务的标签数量;第一互信息计算器~第三互信息计算器计算输出的互信息分别为mistru_syn、mistru_decoder、misyn_decoder,句子信息解码器输出句子中每个单词的词嵌入矩阵的信息yinfo_decoder,yinfo_decoder是一个B×L×D的张量,其中D为词嵌入矩阵的维度;根据以上输出结果计算如下损失值:
标签分类器的损失值计算:
Figure BDA0002448597800000101
z为输入的句子,Y(z)为句子序列标签预测的所有结果集合,ψ为计算CRF的函数;
领域判别器的损失值计算:
Figure BDA0002448597800000102
句子信息解码器的损失值计算
Figure BDA0002448597800000103
总的损失函数为:
total_loss=losslabel+λ·lossdecoder+β·lossdomain+ω·(mistru_syn-mistru_decoder-misyn_decoder)
其中λ、β、ω是一个用作调整的超参数;
S34.计算出总的损失值后就算梯度利用梯度反向传播算法更新模型参数;
S35.重复步骤S31~S34直至所述文本序列数据迁移模型收敛,收敛的标准是模型总的损失值基本不变。
其中模型的测试步骤如下:将迁移目标测试集全部输入到所述文本序列数据迁移模型,得到预测结果,将预测结果和标注结果进行比较,并计算其衡量指标F1Score,F1Score越高代表模型性能越好。其中F1Score是任务为命名实体识别的文本序列数据迁移模型的评价指标。
S4.利用训练好的文本序列数据迁移模型进行命名实体识别。将待识别句子输入到该模型即可得到命名实体识别的结果。
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种半监督解耦的命名实体识别方法,其特征在于,包括以下步骤:
S1.获取迁移源文本数据集及迁移目标文本数据集,并对其进行预处理;
S2.构建任务为命名实体识别的文本序列数据迁移模型;
S3.对所述文本序列数据迁移模型进行训练及测试;
S4.利用训练好的文本序列数据迁移模型进行命名实体识别。
2.根据权利要求1所述的半监督解耦的命名实体识别方法,其特征在于,步骤S1所述的预处理步骤具体包括:
S11.将所述迁移源文本数据集和迁移目标文本数据集中的所有句子中的单词转化为小写字母,并根据单词的出现次数由高到低进行排序,剔除出现频率最高的前N位,N为正整数,剩下的单词作为词典,即得到单词字典;
S12.划分具体的迁移方向,以迁移方向为单位,把迁移源文本数据和迁移目标文本数据两两配对,建立字符字典;
S13.建立迁移源文本数据集、迁移目标文本数据集对应的标签字典,并将对应的标签转化为标签字典上的索引号;
S14.把迁移源文本数据集和迁移目标文本数据集的所有句子中的单词转化为单词字典中的索引号,并且把每个句子长度都填充为一样的长度,即得到单词级输入;
S15.把迁移源文本数据集和迁移目标文本数据集的所有句子中的单词所对应的字符转化为字符字典的索引号,并将每个单词都填充为一样的单词长度,再将句子填充为一样的长度,即得到字符级输入。
3.根据权利要求1所述的半监督解耦的命名实体识别方法,其特征在于,所述步骤S1还包括将迁移源文本数据集划分为迁移源训练集、迁移源测试集,将迁移目标文本数据集划分为迁移目标训练集、迁移目标测试集。
4.根据权利要求3所述的半监督解耦的命名实体识别方法,其特征在于,步骤S2所述的文本序列数据迁移模型具体包括迁移源域和迁移目标域共享的语法特征编码器、迁移源域和迁移目标域共享的语义特征编码器、句子信息解码器、第一互信息计算器、第二互信息计算器、第三互信息计算器、标签分类器、领域判别器及特征输入器;其中:
特征输入器的输入为预处理得到的单词级数据及字符级数据,其通过一卷积神经网络将字符级数据提取得到字符级特征信息,随后将字符级特征信息及单词级特征信息拼接在一起,得到句子初始特征信息并输出;语法特征编码器的输入为句子初始特征信息,用于提取其语法特征信息;语义特征编码器的输入为句子初始特征信息,用于提取其语义结构特征信息;句子信息解码器的输入为语法特征信息及语义结构特征信息,基于所述语法特征信息及语义结构特征信息解码得到句子特征信息;领域判别器的输入为语义结构特征信息;第一互信息计算器的输入为语法特征信息与语义结构特征信息,用于计算语法特征信息与语义结构特征信息之间的最小互信息;第二互信息计算器的输入为语法特征信息与句子特征信息,用于计算语法特征信息与句子特征信息之间的最大互信息;第三互信息计算器的输入为语义结构特征信息与句子特征信息,用于计算语义结构特征信息与句子特征信息之间的最大互信息;标签分类器的输入为语法特征信息以及语义结构特征信息,基于所述语法特征信息以及语义结构特征信息得到命名实体识别的具体标签。
5.根据权利要求4所述的半监督解耦的命名实体识别方法,其特征在于,所述语法特征编码器及语义特征编码器采用维度为100维的长短时记忆神经网络;句子信息解码器采用全连接神经网络;领域判别器采用两层全连接神经网络,第一层为150维,第二层为100维;标签分类器采用CRF分类器,第一~三互信息计算器采用互信息神经网络计算器。
6.根据权利要求5所述的半监督解耦的命名实体识别方法,其特征在于,步骤S3中对所述文本序列数据迁移模型进行训练的具体步骤包括:
S31.将迁移源训练集和迁移目标训练集打乱;
S32.将特征提取部分所对应的神经网络的参数固定不动,分别从迁移源训练集和迁移目标训练集中取出一批训练数据,批量大小均为B,输入到第一互信息计算器~第三互信息计算器中进行训练;所述特征提取部分包括语法特征编码器、语义特征编码器、句子信息解码器;
S33.所述第一互信息计算器~第三互信息计算器的参数固定不动,分别从迁移源训练集和迁移目标训练集中取出一批数据,批量大小均为B,输入到所述文本序列数据迁移模型中,训练所述特征提取部分;其中的标签判别器输出整个句子每个单词的标签预测值序列ylabel_pre,领域判别器输出一个预测值ydomain_pre,ylabel_pre是一个B×L×C的张量,ydomain_pre是一个B×1的张量;其中B为批次大样本数量,L为句子长度,C是命名实体识别任务的标签数量;第一互信息计算器~第三互信息计算器计算输出的互信息分别为mistru_syn、mistru_decoder、misyn_decoder,句子信息解码器输出句子中每个单词的词嵌入矩阵的信息yinfo_decoder,yinfo_decoder是一个B×L×D的张量,其中D为词嵌入矩阵的维度;根据以上输出结果计算如下损失值:
标签分类器的损失值计算:
Figure FDA0002448597790000031
z为输入的句子,Y(z)为句子序列标签预测的所有结果集合,ψ为计算CRF的函数;
领域判别器的损失值计算:
Figure FDA0002448597790000032
句子信息解码器的损失值计算
Figure FDA0002448597790000033
总的损失函数为:
total_loss=losslabel+λ·lossdecoder+β·lossdomain+ω·(mistru_syn-mistru_decoder-misyn_decoder)
其中λ、β、ω是一个用作调整的超参数;
S34.计算出总的损失值后就算梯度利用梯度反向传播算法更新模型参数;
S35.重复步骤S31~S34直至所述文本序列数据迁移模型收敛,收敛的标准是模型总的损失值基本不变。
7.根据权利要求5所述的半监督解耦的命名实体识别方法,其特征在于,步骤S3中对所述文本序列数据迁移模型进行测试的具体步骤包括:
将迁移目标测试集全部输入到所述文本序列数据迁移模型,得到预测结果,将预测结果和标注结果进行比较,并计算其衡量指标F1Score。
CN202010286176.3A 2020-04-13 2020-04-13 一种半监督解耦的命名实体识别方法 Active CN111597810B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010286176.3A CN111597810B (zh) 2020-04-13 2020-04-13 一种半监督解耦的命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010286176.3A CN111597810B (zh) 2020-04-13 2020-04-13 一种半监督解耦的命名实体识别方法

Publications (2)

Publication Number Publication Date
CN111597810A true CN111597810A (zh) 2020-08-28
CN111597810B CN111597810B (zh) 2024-01-05

Family

ID=72183193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010286176.3A Active CN111597810B (zh) 2020-04-13 2020-04-13 一种半监督解耦的命名实体识别方法

Country Status (1)

Country Link
CN (1) CN111597810B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735465A (zh) * 2020-12-24 2021-04-30 广州方硅信息技术有限公司 无效信息确定方法、装置、计算机设备及存储介质
CN114580424A (zh) * 2022-04-24 2022-06-03 之江实验室 一种用于法律文书的命名实体识别的标注方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170228365A1 (en) * 2016-02-09 2017-08-10 International Business Machines Corporation Systems and methods for language feature generation over multi-layered word representation
CN109871535A (zh) * 2019-01-16 2019-06-11 四川大学 一种基于深度神经网络的法语命名实体识别方法
WO2019148898A1 (zh) * 2018-02-01 2019-08-08 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN110738057A (zh) * 2019-09-05 2020-01-31 中山大学 一种基于语法约束和语言模型的文本风格迁移方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170228365A1 (en) * 2016-02-09 2017-08-10 International Business Machines Corporation Systems and methods for language feature generation over multi-layered word representation
WO2019148898A1 (zh) * 2018-02-01 2019-08-08 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN109871535A (zh) * 2019-01-16 2019-06-11 四川大学 一种基于深度神经网络的法语命名实体识别方法
CN110738057A (zh) * 2019-09-05 2020-01-31 中山大学 一种基于语法约束和语言模型的文本风格迁移方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735465A (zh) * 2020-12-24 2021-04-30 广州方硅信息技术有限公司 无效信息确定方法、装置、计算机设备及存储介质
CN112735465B (zh) * 2020-12-24 2023-02-24 广州方硅信息技术有限公司 无效信息确定方法、装置、计算机设备及存储介质
CN114580424A (zh) * 2022-04-24 2022-06-03 之江实验室 一种用于法律文书的命名实体识别的标注方法和装置
CN114580424B (zh) * 2022-04-24 2022-08-05 之江实验室 一种用于法律文书的命名实体识别的标注方法和装置

Also Published As

Publication number Publication date
CN111597810B (zh) 2024-01-05

Similar Documents

Publication Publication Date Title
Farahani et al. Parsbert: Transformer-based model for persian language understanding
CN112084337B (zh) 文本分类模型的训练方法、文本分类方法及设备
Jung Semantic vector learning for natural language understanding
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
Dashtipour et al. Exploiting deep learning for Persian sentiment analysis
CN108960317B (zh) 基于词向量表示和分类器联合训练的跨语言文本分类方法
CN111160031A (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN113065358B (zh) 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
Wu et al. Finding better subword segmentation for neural machine translation
CN112434535A (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN110928981A (zh) 一种文本标签体系搭建及完善迭代的方法、系统及存储介质
CN114153978A (zh) 模型训练方法、信息抽取方法、装置、设备及存储介质
CN111709225B (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
CN115952791A (zh) 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质
CN111597810B (zh) 一种半监督解耦的命名实体识别方法
CN114662476A (zh) 一种融合词典与字符特征的字符序列识别方法
Ye et al. Chinese Named Entity Recognition Based on Character‐Word Vector Fusion
CN113743101A (zh) 文本纠错方法、装置、电子设备和计算机存储介质
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN115017879A (zh) 文本对比方法、计算机设备及计算机存储介质
Zhao et al. Dynamic entity-based named entity recognition under unconstrained tagging schemes
Ma et al. Multi-teacher knowledge distillation for end-to-end text image machine translation
CN117725211A (zh) 一种基于自构建提示模板的文本分类方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant