CN111062215B - 基于半监督学习训练的命名实体识别方法和装置 - Google Patents
基于半监督学习训练的命名实体识别方法和装置 Download PDFInfo
- Publication number
- CN111062215B CN111062215B CN201911256166.9A CN201911256166A CN111062215B CN 111062215 B CN111062215 B CN 111062215B CN 201911256166 A CN201911256166 A CN 201911256166A CN 111062215 B CN111062215 B CN 111062215B
- Authority
- CN
- China
- Prior art keywords
- data
- annotation
- vector
- model
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 36
- 239000013598 vector Substances 0.000 claims abstract description 231
- 238000002372 labelling Methods 0.000 claims abstract description 144
- 230000000007 visual effect Effects 0.000 claims abstract description 17
- 238000009826 distribution Methods 0.000 claims description 57
- 230000002457 bidirectional effect Effects 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000012544 monitoring process Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 description 14
- 238000012512 characterization method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种基于半监督学习训练的命名实体识别方法、装置、计算机设备和存储介质。所述方法包括:获取标注数据以及无标注数据;利用所述标注数据对序列标注模型进行监督训练;通过训练后的序列标注模型计算所述标注数据以及所述无标注数据对应的语义向量,根据所述语义向量识别与所述标注数据同分布的无标注数据;调用半监督学习模型,所述半监督学习模型基于所述训练后的序列标注模型与输入视角受限的辅助预测网络所组成;通过同分布的无标注数据对所述半监督学习模型进行训练,通过维特比解码输出对应的命名实体识别结果。采用本方法既能有效减少数据标注成本,又能够有效提高命名实体识别准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种基于半监督学习训练的命名实体识别方法、装置、计算机设备和存储介质。
背景技术
命名实体识别(Named Entity Recognition,简称NER)是指从数据序列中识别具有特定标签的实体,例如时间、地点、人名、组织机构名等。命名实体识别是关系抽取、信息检索、查自动问答、对话系统等问题的基础任务,能否准确识别关系到后续处理是否能够准确无误。命名实体识别的模型主要通过监督学习训练和半监督学习训练。监督学习训练依赖标注数据,但是数据标注成本很高。半监督学习训练可以利用标注数据和无标注数据,一种半监督学习策略是训练Bi-LSTM句子编码器去做语言建模,然后将其语境敏感表征纳入监督模型中。这种预训练方法先在大型无标注数据语料库上进行无监督表征学习,然后再进行监督训练。但这种预训练的一个重要缺陷在于,表征学习阶段无法利用标注数据。
发明内容
基于此,有必要针对上述技术问题,提供一种既能有效减少数据标注成本,又能够有效提高命名实体识别准确性的基于半监督学习训练的命名实体识别方法、装置、计算机设备和存储介质。
一种基于监督学习训练的命名实体识别方法,所述方法包括:
获取标注数据以及无标注数据;
利用所述标注数据对序列标注模型进行监督训练;
通过训练后的序列标注模型计算所述标注数据以及所述无标注数据对应的语义向量,根据所述语义向量识别与所述标注数据同分布的无标注数据;
调用半监督学习模型,所述半监督学习模型基于所述训练后的序列标注模型与多个输入视角受限的辅助预测网络所组成;
通过同分布的无标注数据对所述半监督学习模型进行训练,通过维特比解码输出对应的命名实体识别结果。
在其中一个实施例中,所述序列标注模型包括嵌入层、两层双向LSTM和输入视角不受限的主预测网络;所述利用所述标注数据对序列标注模型进行监督训练包括:
在所述嵌入层采用预训练字向量模型向量化所述标注数据,得到标注向量;
将所述标注向量输入至所述两层双向LSTM,得到对应的第一层输出向量和第二层输出向量;
将所述第一层输出向量与所述第二层输出向量进行拼接,得到拼接向量;
将所述拼接向量输入至所述主预测网络,得到与所述标注数据对应的概率分布预测网络;
通过输出层对所述概率分布进行维特比解码,得到与所述标注数据对应的序列标注。
在其中一个实施例中,所述通过训练后的序列标注模型计算所述标注数据以及所述无标注数据对应的语义向量包括:
获取所述标注数据对应的标注向量;
在嵌入层利用预训练的字向量模型将所述无标注数据进行向量化处理,得到对应的无标注向量;
将所述标注向量输入所述训练后的序列标注模型,输出对应的标注语义向量;
将所述无标注向量输入所述训练后的序列标注模型,输出对应的无标注语义向量。
在其中一个实施例中,所述根据所述语义向量识别与所述标注数据同分布的无标注数据包括:
根据所述标注数据对应的标注语义向量创建索引;
获取与所述无标注数据对应的无标注语义向量;
通过所述索引检索与所述无标注语义向量相似的多个所述标注语义向量;
根据所述无标注语义向量与检索出的相似标注语义向量之间的信息散度,识别与所述标注数据同分布的无标注数据。
在其中一个实施例中,所述根据所述无标注语义向量与检索出的相似标注语义向量之间的信息散度,识别与所述标注数据同分布的无标注数据包括:
将所述无标注语义向量输入至所述训练后的序列标注模型,得到对应的无标注序列标签概率分布;
将检索出的相似标注语义向量输入至所述训练后的序列标注模型,得到对应的标注序列标签概率分布;
计算所述无标注序列标签概率分布与每个标注序列标签概率分布之间的信息散度,输出最小信息散度损失值;
当所述最小信息散度损失值小于阈值时,确定所述无标注数据与所述标注数据属于相同数据分布。
在其中一个实施例中,所述通过同分布的无标注数据对所述半监督学习模型进行训练包括:
利用所述训练后的序列标注模型对所述同分布的无标注数据进行预测,得到预测后的序列标注;
利用所述预测后的序列标注对所述半监督学习模型进行训练。
一种基于半监督学习训练的命名实体识别装置,所述装置包括:
数据获取模块,用于获取标注数据以及无标注数据;
第一训练模块,用于利用所述标注数据对序列标注模型进行训练;
向量计算模块,用于通过训练后的序列标注模型计算所述标注数据以及所述无标注数据对应的语义向量,根据所述语义向量识别与所述标注数据同分布的无标注数据;
第二训练模块,用于调用半监督学习模型,所述半监督学习模型基于所述训练后的序列标注模型与多个输入视角受限的辅助预测网络所组成;通过同分布的无标注数据对所述半监督学习模型进行训练,通过维特比解码输出对应的命名实体识别结果。
在其中一个实施例中,所述向量计算模块还用于根据所述标注数据对应的标注语义向量创建索引;获取与所述无标注数据对应的无标注语义向量;通过所述索引检索与所述无标注语义向量相似的多个所述标注语义向量;根据所述无标注语义向量与检索出的相似标注语义向量之间的信息散度,识别与所述标注数据同分布的无标注数据。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述各个方法实施例中的步骤。
上述基于半监督学习训练的命名实体识别方法、装置、计算机设备和存储介质,通过利用标注数据对序列标注模型进行训练,得到准确标注命名实体识别结果的训练后的序列标注模型。利用训练后的序列标注模型、计算标注数据以及无标注数据对应的语义向量,可以根据语义向量准确识别与标注数据同分布的无标注数据。基于与标注数据同分布的无标注数据,对半监督学习模型进行训练,半监督学习模型是基于训练后的序列标注模型与多个输入视角受限的辅助预测网络构成,可以利用大量无标注数据对半监督学习模型进行有效泛化,通过输出层的维特比解码,可以得到无标注数据对应的序列标注,由此能够在有效降低数据标注成本的同时,又能有效提高命名实体识别准确性。
附图说明
图1为一个实施例中基于半监督学习训练的命名实体识别方法的应用场景图;
图2为一个实施例中基于半监督学习训练的命名实体识别方法的流程示意图;
图3为一个实施例中序列标注模型训练的示意图;
图4为一个实施例中识别与标注数据同分布的无标注数据步骤的流程示意图;
图5为一个实施例中辅助模型的示意图;
图6为一个实施例中基于半监督学习训练的命名实体识别装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的基于半监督学习训练的命名实体识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器104中存储了标注数据与无标注数据。终端102通过网络在服务器104中获取相应的标注数据与无标注数据。终端102利用标注数据对序列标注模型进行训练。通过训练后的序列标注模型计算标注数据以及无标注数据对应的语义向量,根据语义向量识别与标注数据同分布的无标注数据。终端102调用半监督学习模型,半监督学习模型基于训练后的序列标注模型与多个输入视角受限的辅助预测网络所构建,通过同分布的无标注数据对半监督学习模型进行训练,通过维特比解码输出对应的命名实体识别结果。由此实现了在有效减少数据标注成本的同时,又能够有效提高命名实体识别准确性。
在一个实施例中,如图2所示,提供了一种基于半监督学习训练的命名实体识别方法基于半监督学习训练的命名实体识别,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤202,获取标注数据以及无标注数据。
终端获取序列标注任务,根据该序列标注任务可以获取对应的标注数据以及无标注数据。其中,标注数据是预先标注标签的数据,无标注数据是尚未标注标签的数据。
步骤204,利用标注数据对序列标注模型进行监督训练。
终端上建立了序列标注模型。序列标注模型包括嵌入层、两层双向LSTM、主预测网络以及输出层。其中,嵌入层可以使用预训练的字向量模型对输入的标注数据进行向量化。主预测网络可以是一个包含一层隐藏层全连接神经网络,视角是不受限的。视角不受限也就是说向主预测网络输入整个语义向量,而非语义向量的子集。输出层可以采用CRF层。
在传统的命名实体识别的模型以及CVT模型中,输出层采用的是softmax层,通过softmax层输出各个标签的概率。由于softmax层输出的各个概率之间是相互独立的,虽然模型学习了上下文信息,但是在输出时各个标签的概率之间并没有相互影响,只是在每一步挑选一个概率最大的标签输出。这会导致一个标签后再接着一个相同标签的问题,没有考虑相邻词的标注信息,出现命名实体识别错误。本实施例中,序列标注模型的输出层采用CRF层。CRF层有转移特征,结合各个标签之间的顺序,使用CRF层的维特比解码,得到序列标注,以此得到正确的命名实体识别结果。
终端通过预训练的字向量模型对标注数据进行向量化处理,得到对应的标注向量。终端通过预训练的字向量模型对无标注数据进行向量化处理,得到对应的无标注向量。终端利用标注向量对序列标注模型进行训练,以此得到能够准确标注命名实体识别结果的训练后的序列标注模型。
步骤206,通过训练后的序列标注模型计算标注数据以及无标注数据对应的语义向量,根据语义向量识别与标注数据同分布的无标注数据。
传统方式中提出的对神经网络模型的自训练算法CVT,在利用无标注数据时,需要一个数据同分布假设,否则会引入噪声无标注数据,导致神经网络模型进行命名实体识别的效果不理想。
本实施例中,不需要假设无标注数据与标注数据的数据分别相同,可以利用训练后的序列标注模型、标注向量以及无标注向量,准确计算出与标注数据同分布的无标注数据。其中,终端可以将标注向量输入训练后的序列标注模型,通过两层双向LSTM输出对应的标注语义向量。终端将无标注向量输入训练后的序列标注模型,通过两层双向LSTM输出对应的无标注语义向量。终端检索与无标注语义向量相似的多个标注语义向量。终端根据无标注语义向量与检索出的相似标注语义向量之间的信息散度,识别与标注数据同分布的无标注数据。例如,终端可以采用一种超平面多维近似向量查找工具Annoy进行检索。
步骤208,调用半监督学习模型,半监督学习模型基于训练后的序列标注模型与多个输入视角受限的辅助预测网络所组成。
步骤210,通过同分布的无标注数据对半监督学习模型进行训练,通过维特比解码输出对应的命名实体识别结果。
辅助预测网络的网络结构与主预测网络的网络结构一致,但是两者的输入不同。主预测网络的输入视角不受限,辅助预测网络的输入视角受限,受限视角的个数代表辅助模块的个数。视角受限是指非完整的语义向量输入,而是语义向量输入的子集。每个辅助预测网络的输入是训练后的序列标注模型输出的语义向量的的子集。半监督学习模型是基于训练后的序列标注模型与多个输入视角受限的辅助预测网络所构建,将向量表征转换成预测的神经网络。
终端可以利用训练后的序列标注模型对同分布的无标注数据进行预测,得到预测后的序列标注。利用预测后的序列标注对半监督学习模型进行训练。半监督学习模型的输出层为CRF层,通过CRF层转移特征,结合各个标签之间的顺序性,通过维特比解码,由此可以得到与无标注数据对应的序列标注,即得到正确的命名实体识别结果。在这一训练过程中,无需标注数据参与,有效节省了数据标注的成本。
本实施例中,通过利用标注数据对序列标注模型进行训练,得到准确标注命名实体识别结果的训练后的序列标注模型。利用训练后的序列标注模型、计算标注数据以及无标注数据对应的语义向量,可以根据语义向量准确识别与标注数据同分布的无标注数据。基于与标注数据同分布的无标注数据,对半监督学习模型进行训练,半监督学习模型是基于训练后的序列标注模型与多个视角受限的辅助预测网络构成,可以利用大量无标注数据对半监督学习模型进行有效泛化,通过输出层的维特比解码,可以得到无标注数据对应的序列标注,由此能够在有效降低数据标注成本的同时,又能有效提高命名实体识别准确性。
在一个实施例中,序列标注模型包括嵌入层、两层双向LSTM和输入视角不受限的主预测网络;利用标注数据对序列标注模型进行训练包括:在嵌入层采用预训练字向量模型向量化标注数据,得到标注向量;将标注向量输入至两层双向LSTM,得到对应的第一层输出向量和第二层输出向量;将第一层输出向量与第二层输出向量进行拼接,得到拼接向量;将拼接向量输入至主预测网络,得到与标注数据对应的概率分布;通过输出层对概率分布进行维特比解码,得到与标注数据对应的序列标注。
本实施例中,可以采用BIEO标注法对训练数据进行标注。例如:下列标签的含义分别为:B-LOC代表地点的开始,E-LOC代表地点的结尾,B-PER代表人名的开始,I-PER代表人名的中间,E-PER代表人名的结尾,O则代表其它。序列标注模型包括输入层、嵌入层、两层双向LSTM神经网络、一个包含一层隐藏层神经网络的主预测网络以及输出层。序列标注模型可以通过少量的标注数据进行训练。
输入层将标注数据传输至嵌入层,嵌入层可以采用上述实施例中提及的预训练的字向量模型对标注数据进行向量化处理,得到每个字符对应的标注向量。将每个字符对应的标注向量输入至两层双向LSTM神经网络,其中,第一层输出向量作为第二层LSTM神经网络的输入,将第一层输出向量与第二层输出向量进行拼接,得到拼接向量。将拼接向量作为主预测网络的输入,通过主预测网络的运算,输出与标注数据对应的序列标签概率分布。
每一层双向LSTM都包括前向LSTM和后向LSTM,在第一层双向LSTM的运算过程,前向LSTM的输出为hft,后向LSTM的输出为hbt,二者进行拼接后,得到ht=[hft,hbt],其中前向输出hft表征了历史上下文信息,而后向输出hft则表征了未来的上下文信息。将h1输入到序列标注模型的第二层双向LSTM中,得到第二层双向LSTM输出向量t1,接着把模型第一层双向LSTM输出向量h1和第二层双向LSTM输出向量t1进行拼接,得到h1||t1输入到一个包含一层隐藏层神经网络的主模型中。如图3所示,输入的标注数据为“前往深圳出差”。嵌入层将该标注数据转换为每个字符对应的标注向量x1、x2、x3、x4、x5、x6。经过双向LSTM神经网络运算之后,得到每一层的输出向量,如x1对应h1、t1拼接后作为主预测网络的输入h1||t1。经过主预测网络线性功能神经网络运算,输出该标注数据对应的标签概率分布。将标签概率分布输入至CRF层,可以输出每个字符对应的标签。
本实施例中,通过利用少量的标注数据,即可完成对序列标注模型的训练。训练后的序列标注模型采用了CRF层作为输出层,能够准确输出命名实体识别结果。
在一个实施例中,通过训练后的序列标注模型计算标注数据以及无标注数据对应的语义向量包括:在嵌入层利用预训练的字向量模型将标注数据进行向量化处理,得到对应的标注向量;在嵌入层利用预训练的字向量模型将无标注数据进行向量化处理,得到对应的无标注向量;将标注向量输入训练后的序列标注模型,输出对应的标注语义向量;将无标注向量输入训练后的序列标注模型,输出对应的无标注语义向量。
字向量模型可以是采用无监督学习方法训练得到的模型,例如word2vec模型。字向量模型可以是利用特定领域内的文本预料,经过无监督学习的训练后得到的。预训练的字向量模型也可以称为训练后的字向量模型。字向量模型的训练方法可以采用CBOW等,可以根据其中一个字符周围的字符进行预测,将这些字符的字向量连接,能够充分保留上下文信息。终端通过预训练的字向量模型对标注数据进行向量化处理,得到对应的标注向量。终端通过预训练的字向量模型对无标注数据进行向量化处理,得到对应的无标注向量。
终端将标注向量输入训练后的序列标注模型,通过两层双向LSTM输出对应的标注语义向量。将无标注向量输入训练后的序列标注模型,通过两层双向LSTM输出对应的无标注语义向量。通过标注语义向量与无标注语义向量的匹配,识别与标注数据同分布的无标注数据。
在一个实施例中,如图4所示,识别与标注数据同分布的无标注数据的步骤包括:
步骤402,根据标注数据对应的标注语义向量创建索引。
步骤404,获取与无标注数据对应的无标注语义向量。
步骤406,通过索引检索与无标注语义向量相似的多个标注语义向量。
步骤408,根据无标注语义向量与检索出的相似标注语义向量之间的信息散度,识别与标注数据同分布的无标注数据。
终端将标注向量输入训练后的序列标注模型,通过两层双向LSTM输出对应的标注语义向量。终端将标注语义向量进行保存,并创建二叉树集合的索引。例如,终端将标注语义向量保存至Annoy。终端将无标注向量输入训练后的序列标注模型,通过两层双向LSTM输出对应的无标注语义向量。终端对每一个无标注语义向量,通过对二叉树集合进行遍历,利用二叉树集合索引检索出最相似的多个标注语义向量的索引,以此根据该索引得到相似的多个标注语义向量。终端根据无标注语义向量与检索出的相似标注语义向量之间的信息散度,识别与标注数据同分布的无标注数据。
在其中一个实施例中,根据无标注语义向量与检索出的相似标注语义向量之间的信息散度,识别与标注数据同分布的无标注数据包括:将无标注语义向量输入至训练后的序列标注模型,得到对应的无标注序列标签概率分布;将检索出的相似标注语义向量输入至训练后的序列标注模型,得到对应的标注序列标签概率分布;计算无标注序列标签概率分布与每个标注序列标签概率分布之间的信息散度,输出最小信息散度损失值;当最小信息散度损失值小于阈值时,确定无标注数据与标注数据属于相同数据分布。
信息散度可以衡量两个标签概率分布之间的差异,信息散度越大,差异越大。其中信息散度可以是KL散度(Kullback-Leibler divergence)。终端分别计算无标注序列标签概率分布与每个标注序列标签概率分布之间的信息散度,输出最小信息散度损失值。当最小信息散度损失值小于阈值时,确定无标注数据与标注数据属于相同数据分布。否则,无标注数据与标注数据不属于相同数据分布,则摒弃该无标注数据。
本实施例中,通过利用训练后的序列标注模型、标注向量以及无标注向量,可以根据无标注语义向量与检索出的相似标注语义向量之间的信息散度,当最小信息散度损失值小于阈值时,可以确定无标注数据与标注数据属于相同数据分布,由此可以准确识别与标注数据相同数据分布的无标注数据。
在一个实施例中,通过同分布的无标注数据对半监督学习模型进行训练包括:利用训练后的序列标注模型对同分布的无标注数据进行预测,得到预测后的序列;利用预测后的序列对半监督学习模型进行训练。
辅助预测网络的网络结构与主预测网络的网络结构一致,只是输入不同。其中,主预测网络的输入视角不受限,辅助预测网络的输入视角受限。受限视角的个数代表辅助模型的个数。如图5所示,视角受限的输入序列中可以补入预设字符,例如预设字符为*,以使得补入预设字符后的输入序列与主模型的输入序列的字符数量相同。根据去补入字符的位置,可以确定辅助预测网络与双向LSTM所关联的方向。以辅助预测网络2为例,其输入字符为“出发北***”,其关联到第一层双向LSTM的前向,在预测当前字符为“北”的标签时,看不到它右侧的语境。以辅助预测网络4为例,其输入字符为“***京开会”,其关联到第一层双向LSTM的后向。在预测当前字符为“京”的标签时,看不到它左侧的语境。
训练后的序列标注模型对同分布的无标注数据进行预测,得到预测后的序列标签概率分布。利用预测后的序列标注概率分布对半监督学习模型进行训练。其中,在训练后的序列标注模型中添加多个输入视角受限的辅助预测网络,用于学习无标注数据,将向量表征转换成预测的神经网络。其中,每个辅助预测网络以两层双向LSTM神经网络的输出的中间表征即语义向量作为输入,输出相应的标签概率分布,每个中间表征为视角受限的输入序列的子集经过两层双向LSTM神经网络输出的中间表征。不受限的视角输入序列经过两层双向LSTM神经网络输出的中间表征作为主预测网络的输入,输出相应的标签概率分布。终端可以在无标注数据的基础上,利用最小化损失函数对半监督学习模型中的多个辅助预测网络进行训练以匹配主预测网络。其中,损失函数为每一个辅助预测网络输出的标签概率分布匹配主预测网络输出的标签概率分布的差异损失之和的平均值,,属于无监督损失函数,可表示为:
其中k表示受限视角的个数,即辅助预测网络的个数。每个辅助预测网络以双向LSTM模型输出的中间表征hj(xi)作为输入,输出pj(y|xi)标签分布,每个hj为受限视角输入xi的子集经过双向LSTM输出的中间表征。p(y|xi)表示不受限视角输入xi经过双向LTSM模型输出的中间表征作为主预测网络输入,得到标签分布。
在训练后的序列标注模型对无标注数据进行预测后,所有辅助预测网络再进行学习,由于整个训练后的序列标注模型具备更好、视角不受限的输入,通过将视角不受限的主预测网络的输出与每个视角受限的辅助预测网络的输出之间的差异度量作为监督信号,可以进行端到端的训练。由此可以使得视角受限的辅助预测网络也可以做出正确的预测。视角受限的辅助预测网络即使在特征表示信息不充分的情况下,也能输出较好的结果,同时,由于整个训练后的序列标注模型的中间表征部分对辅助预测网络和主预测网络是共享的,在降低这部分损失的时候,也就相应的促使训练后的序列标注模型抽取出更好的表征以及提高视角不受限的辅助预测网络的预测判别能力。此外,由于这里的监督信号不需要标注数据的参与,所以可以利用大量同分布无标注数据来对模型进行有效泛化。
应该理解的是,虽然图2、4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种基于半监督学习训练的命名实体识别,包括:数据获取模块602、第一训练模块604、向量计算模块606、第二训练模块608,其中:
数据获取模块602,用于获取标注数据以及无标注数据;
第一训练模块604,用于利用标注数据对序列标注模型进行监督训练;
向量计算模块606,用于通过训练后的序列标注模型计算标注数据以及无标注数据对应的语义向量,根据语义向量识别与标注数据同分布的无标注数据;
第二训练模块608,用于调用半监督学习模型,半监督学习模型基于训练后的序列标注模型与多个输入视角受限的辅助预测网络所构建;通过同分布的无标注数据对半监督学习模型进行训练,通过维特比解码输出对应的命名实体识别结果。
在一个实施例中,序列标注模型包括双向LSTM神经网络和输入视角不受限的主预测网络;第一训练模块604还用于将标注向量输入值双向LSTM,得到对应的第一层输出向量和第二层输出向量;将第一层输出向量与第二层输出向量进行拼接,得到拼接向量;将拼接向量输入至主预测网络,得到与标注数据对应的标签概率分布;通过输出层对概率分布进行维特比解码,得到与标注数据对应的序列标注。
在一个实施例中,向量计算模块606还用于在嵌入层利用预训练的字向量模型将标注数据进行向量化处理,得到对应的标注向量;在嵌入层利用预训练的字向量模型将无标注数据进行向量化处理,得到对应的无标注向量;将标注向量输入训练后的序列标注模型,输出对应的标注语义向量;将无标注向量输入训练后的序列标注模型,输出对应的无标注语义向量。
在一个实施例中,向量计算模块606还用于根据标注数据对应的标注语义向量创建索引;获取与无标注数据对应的无标注语义向量;通过索引检索与无标注语义向量相似的多个标注语义向量;根据无标注语义向量与检索出的相似标注语义向量之间的信息散度,识别与标注数据同分布的无标注数据。
在一个实施例中,向量计算模块606还用于将无标注语义向量输入至训练后的序列标注模型,得到对应的无标注序列标签概率分布;将检索出的相似标注语义向量输入至训练后的序列标注模型,得到对应的标注序列标签概率分布;计算无标注序列标签概率分布与每个标注序列标签概率分布之间的信息散度,输出最小信息散度损失值;当最小信息散度损失值小于阈值时,确定无标注数据与标注数据属于相同数据分布。
在一个实施例中,第二训练模块608还用于利用训练后的序列标注模型对同分布的无标注数据进行预测,得到预测后的序列;利用预测后的序列对半监督学习模型进行训练。
关于基于半监督学习训练的命名实体识别装置的具体限定可以参见上文中对于基于半监督学习训练的命名实体识别方法的限定,在此不再赘述。上述基于半监督学习训练的命名实体识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。
该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现基于半监督学习训练的命名实体识别方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行实体关系抽取方法。计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述各个方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各个方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于半监督学习训练的命名实体识别方法,所述方法包括:
获取标注数据以及无标注数据;
利用所述标注数据对序列标注模型进行监督训练;
通过训练后的序列标注模型计算所述标注数据以及所述无标注数据对应的语义向量,根据所述标注数据对应的标注语义向量创建索引;获取与所述无标注数据对应的无标注语义向量;通过所述索引检索与所述无标注语义向量相似的多个所述标注语义向量;将所述无标注语义向量输入至所述训练后的序列标注模型,得到对应的无标注序列标签概率分布;将检索出的相似标注语义向量输入至所述训练后的序列标注模型,得到对应的标注序列标签概率分布;计算所述无标注序列标签概率分布与每个标注序列标签概率分布之间的信息散度,输出最小信息散度损失值;当所述最小信息散度损失值小于阈值时,确定所述无标注数据与所述标注数据属于相同数据分布;
调用半监督学习模型,所述半监督学习模型基于所述训练后的序列标注模型与多个输入视角受限的辅助预测网络所组成;
利用所述训练后的序列标注模型对同分布的无标注数据进行预测,得到预测后的序列标注,利用所述预测后的序列标注对所述半监督学习模型进行训练,通过维特比解码输出对应的命名实体识别结果。
2.根据权利要求1所述的方法,其特征在于,所述序列标注模型包括嵌入层、两层双向LSTM和输入视角不受限的主预测网络;所述利用所述标注数据对序列标注模型进行监督训练包括:
在所述嵌入层采用预训练字向量模型向量化所述标注数据,得到标注向量;
将所述标注向量输入至所述两层双向LSTM,得到对应的第一层输出向量和第二层输出向量;
将所述第一层输出向量与所述第二层输出向量进行拼接,得到拼接向量;
将所述拼接向量输入至所述主预测网络,得到与所述标注数据对应的概率分布预测网络;
通过输出层对所述概率分布进行维特比解码,得到与所述标注数据对应的序列标注。
3.根据权利要求1所述的方法,其特征在于,所述序列标注模型计算所述标注数据以及所述无标注数据对应的语义向量包括:
在嵌入层利用预训练的字向量模型将所述标注数据进行向量化处理,得到对应的标注向量;
在嵌入层利用所述预训练的字向量模型将所述无标注数据进行向量化处理,得到对应的无标注向量;
将所述标注向量输入所述训练后的序列标注模型,输出对应的标注语义向量;
将所述无标注向量输入所述训练后的序列标注模型,输出对应的无标注语义向量。
4.根据权利要求1所述的方法,其特征在于,所述根据所述标注数据对应的标注语义向量创建索引包括:
将所述标注语义向量进行保存,并创建二叉树集合的索引。
5.根据权利要求2所述的方法,其特征在于,所述辅助预测网络的网络结构与所述主预测网络的网络结构一致,但是输入不同。
6.一种基于半监督学习训练的命名实体识别装置,其特征在于,所述装置包括:
数据获取模块,用于获取标注数据以及无标注数据;
第一训练模块,用于利用所述标注数据对序列标注模型进行监督训练;
向量计算模块,用于通过训练后的序列标注模型计算所述标注数据以及所述无标注数据对应的语义向量,根据所述标注数据对应的标注语义向量创建索引;获取与所述无标注数据对应的无标注语义向量;通过所述索引检索与所述无标注语义向量相似的多个所述标注语义向量;将所述无标注语义向量输入至所述训练后的序列标注模型,得到对应的无标注序列标签概率分布;将检索出的相似标注语义向量输入至所述训练后的序列标注模型,得到对应的标注序列标签概率分布;计算所述无标注序列标签概率分布与每个标注序列标签概率分布之间的信息散度,输出最小信息散度损失值;当所述最小信息散度损失值小于阈值时,确定所述无标注数据与所述标注数据属于相同数据分布;
第二训练模块,用于调用半监督学习模型,所述半监督学习模型基于所述训练后的序列标注模型与多个输入视角受限的辅助预测网络所组成;利用所述训练后的序列标注模型对同分布的无标注数据进行预测,得到预测后的序列标注,利用所述预测后的序列标注对所述半监督学习模型进行训练,通过维特比解码输出对应的命名实体识别结果。
7.根据权利要求6所述的装置,其特征在于,所述第一训练模块还用于在嵌入层采用预训练字向量模型向量化所述标注数据,得到标注向量;将所述标注向量输入至两层双向LSTM,得到对应的第一层输出向量和第二层输出向量;将所述第一层输出向量与所述第二层输出向量进行拼接,得到拼接向量;将所述拼接向量输入至主预测网络,得到与所述标注数据对应的概率分布预测网络;通过输出层对所述概率分布进行维特比解码,得到与所述标注数据对应的序列标注。
8.根据权利要求6所述的装置,其特征在于,所述向量计算模块还用于在嵌入层利用预训练的字向量模型将所述标注数据进行向量化处理,得到对应的标注向量;在嵌入层利用所述预训练的字向量模型将所述无标注数据进行向量化处理,得到对应的无标注向量;将所述标注向量输入所述训练后的序列标注模型,输出对应的标注语义向量;将所述无标注向量输入所述训练后的序列标注模型,输出对应的无标注语义向量。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911256166.9A CN111062215B (zh) | 2019-12-10 | 2019-12-10 | 基于半监督学习训练的命名实体识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911256166.9A CN111062215B (zh) | 2019-12-10 | 2019-12-10 | 基于半监督学习训练的命名实体识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111062215A CN111062215A (zh) | 2020-04-24 |
CN111062215B true CN111062215B (zh) | 2024-02-13 |
Family
ID=70300219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911256166.9A Active CN111062215B (zh) | 2019-12-10 | 2019-12-10 | 基于半监督学习训练的命名实体识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111062215B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113742520B (zh) * | 2020-05-29 | 2023-11-07 | 北京大学 | 基于半监督学习的密集视频描述算法的视频查询检索方法 |
CN111931591B (zh) * | 2020-07-15 | 2024-01-12 | 北京百度网讯科技有限公司 | 用于构建关键点学习模型的方法、装置、电子设备及可读存储介质 |
CN112733539A (zh) * | 2020-12-30 | 2021-04-30 | 平安科技(深圳)有限公司 | 面试实体识别模型训练、面试信息实体提取方法及装置 |
CN112766485B (zh) * | 2020-12-31 | 2023-10-24 | 平安科技(深圳)有限公司 | 命名实体模型的训练方法、装置、设备及介质 |
CN112836791B (zh) * | 2021-01-08 | 2024-02-09 | 北京航轨智行科技有限公司 | 一种基于动态曲面分割的非对抗生成自编码方法及系统 |
CN113128669A (zh) * | 2021-04-08 | 2021-07-16 | 中国科学院计算技术研究所 | 一种用于半监督学习的神经网络模型以及半监督学习方法 |
CN113553984B (zh) * | 2021-08-02 | 2023-10-13 | 中再云图技术有限公司 | 一种基于上下文辅助的视频口罩检测方法 |
CN113919355B (zh) * | 2021-10-19 | 2023-11-07 | 四川大学 | 一种适用于少训练语料场景的半监督命名实体识别方法 |
CN113779202B (zh) * | 2021-11-15 | 2022-02-08 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、计算机设备和存储介质 |
CN113989627B (zh) * | 2021-12-29 | 2022-05-27 | 深圳市万物云科技有限公司 | 一种基于异步联邦学习的城市防控图像检测方法和系统 |
CN114169338B (zh) * | 2022-02-10 | 2022-05-17 | 北京智源人工智能研究院 | 一种医疗命名实体识别方法、装置和电子设备 |
CN114494800B (zh) * | 2022-02-17 | 2024-05-10 | 平安科技(深圳)有限公司 | 预测模型训练方法、装置、电子设备及存储介质 |
CN114708073B (zh) * | 2022-03-29 | 2023-03-24 | 湖南华菱电子商务有限公司 | 一种围标串标智能检测方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103853710A (zh) * | 2013-11-21 | 2014-06-11 | 北京理工大学 | 一种基于协同训练的双语命名实体识别方法 |
CN108959252A (zh) * | 2018-06-28 | 2018-12-07 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
CN109858041A (zh) * | 2019-03-07 | 2019-06-07 | 北京百分点信息科技有限公司 | 一种半监督学习结合自定义词典的命名实体识别方法 |
-
2019
- 2019-12-10 CN CN201911256166.9A patent/CN111062215B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103853710A (zh) * | 2013-11-21 | 2014-06-11 | 北京理工大学 | 一种基于协同训练的双语命名实体识别方法 |
CN108959252A (zh) * | 2018-06-28 | 2018-12-07 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
CN109858041A (zh) * | 2019-03-07 | 2019-06-07 | 北京百分点信息科技有限公司 | 一种半监督学习结合自定义词典的命名实体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111062215A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111062215B (zh) | 基于半监督学习训练的命名实体识别方法和装置 | |
CN112685565B (zh) | 基于多模态信息融合的文本分类方法、及其相关设备 | |
AU2019360080B2 (en) | Image captioning with weakly-supervised attention penalty | |
CN111460807B (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
CN113157863B (zh) | 问答数据处理方法、装置、计算机设备及存储介质 | |
CN110263325B (zh) | 中文分词系统 | |
CN111985239A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN110688853B (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
CN113836992B (zh) | 识别标签的方法、训练标签识别模型的方法、装置及设备 | |
CN112131883B (zh) | 语言模型训练方法、装置、计算机设备和存储介质 | |
CN113743119B (zh) | 中文命名实体识别模块、方法、装置及电子设备 | |
CN113449489B (zh) | 标点符号标注方法、装置、计算机设备和存储介质 | |
CN113159013B (zh) | 基于机器学习的段落识别方法、装置、计算机设备和介质 | |
CN114358203A (zh) | 图像描述语句生成模块的训练方法及装置、电子设备 | |
CN112347290B (zh) | 识别标签的方法、装置、设备以及介质 | |
CN114707005B (zh) | 一种舰船装备的知识图谱构建方法和系统 | |
CN113743099A (zh) | 基于自注意力机制方面术语提取系统、方法、介质、终端 | |
Cornia et al. | A unified cycle-consistent neural model for text and image retrieval | |
CN112580329B (zh) | 文本噪声数据识别方法、装置、计算机设备和存储介质 | |
CN117520590B (zh) | 海洋跨模态图文检索方法、系统、设备及存储介质 | |
CN115587583A (zh) | 噪声的检测方法、装置及电子设备 | |
CN115146068A (zh) | 关系三元组的抽取方法、装置、设备及存储介质 | |
CN113343711B (zh) | 工单生成方法、装置、设备及存储介质 | |
CN113496123A (zh) | 谣言检测方法、装置、电子设备及存储介质 | |
CN115062619B (zh) | 中文实体链接方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |