CN111339779A

CN111339779A - 一种用于越南语的命名实体识别方法

Info

Publication number: CN111339779A
Application number: CN202010199125.7A
Authority: CN
Inventors: 黄永忠; 田磊; 廖显文; 吴辉文; 庄浩宇
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2020-06-26

Abstract

本发明公开了一种用于越南语的命名实体识别方法，其特征在于，包括如下步骤：1）模型训练；2）数据字典构建，所述模型训练包括：1‑1）数据输入；1‑2）BERT层训练；1‑3）GRU层训练；1‑4）CRF层训练，所述数据字典构建包括：2‑1）数据字典修正；2‑2）结果验证。这种方法越南语命名实体识别准确率高。

Description

一种用于越南语的命名实体识别方法

技术领域

本发明涉及计算机应用技术领域，特别是自然语言处理技术，具体是一种用于越南语的命名实体识别方法。

背景技术

随着互联网技术的飞速发展以及自然语言处理领域研究的不断深入，可用信息资源得到极大丰富，人们迫切需要从海量非结构化文本中获取有用信息，在这种背景下，命名实体识别技术应运而生。命名实体识别是自然语言处理中的一个基本任务，目的是识别文本当中的人名、地名、机构名等命名实体，在所有设计自然语言处理的研究中，这是一个必须攻克的任务。命名实体识别作为信息抽取、问答系统、机器翻译等任务中的基础工作,近年来在多媒体索引、半监督和无监督的学习、复杂语言环境和机器翻译等方面取得大量新的研究成果。

然而，当前命名实体识别技术只是在汉语，英语等大语种上有较高的准确率，而且文本类型也仅仅局限于新闻文本，对于越南语等小语种来说，命名实体识别技术依旧是一个亟待解决的问题，语料库严重不足，这也对我们的研究造成了极大的阻碍，人工标注耗时耗力，极大增加了研究成本。有研究者注意到了这个问题，例如Pham等人提出了一种在线学习算法,MIRA等人提出了一种条件随机场(CRF)和引导结合的方法。但这些方法的识别准确率仍有待提高。

发明内容

本发明的目的是针对现有技术得不足，而提供一种用于越南语的命名实体识别方法。这种方法越南语命名实体识别准确率高。

实现本发明目的的技术方案是：

一种用于越南语的命名实体识别方法，包括如下步骤：

1）模型训练：所述模型训练的过程为：

1-1）数据输入：模型训练采用的模型为六层结构，包括从上向下依次连接的输入层、变压器的双向编码器表示（Bidirectional Encoder Representations from Transformers，简称BERT）层、门控循环单元（Gated Recurrent Unit简称GRU）层、条件随机场（Conditional Random Field 简称CRF）层、字典修正层和输出层，数据集为文本文件，包括训练集、测试集、验证集，训练集和验证集文本分为两列，分别为单词和标签，实体标签采用BIO体系，人名PER,地名LOC，机构名ORG，其他O，其中每个实体标签的首个单词用字母B作为开头衔接，非首位单词用字母I衔接，验证集文本只包含单词列，将要训练的数据集A以字符a为单位输入BERT层；

1-2）BERT层训练：将步骤1-1）中数据a输入训练模型中的BERT层，生成词向量并输入到训练模型中GRU层；

1-3）GRU层训练：将训练模型中BERT层生成的词向量输入训练模型中GRU层，GRU层输出每个标签的预测分值，并将结果传入训练模型中CRF层；

1-4）CRF层训练：将GRU层得到的标签预测分值作为CRF层的输入，通过CRF层得到修正后的输出序列；

2）数据字典构建：所述数据字典构建的过程为：

2-1）数据字典修正：人工搜集越南具有代表性的人名PER、地名LOC、机构名ORG，手动标注实体标签，标注体系为IOB体系，将其作为数据字典，并通过数据字典对步骤1-4）中CRF层的预测结果进行修正，根据数据字典中的正确标签与预测结果对比，修正错误的预测结果；

2-2）结果验证：对步骤2-1）的结果在验证集上进行准确率验证，测试集格式与训练集A格式完全相同，验证方法为识别出的正确实体数除以识别出的实体总数。

所述步骤1-2）中，BERT层依次接收传入的数据，并以标点符号句号截至作为一个输入序列l，对每个输入序列l,BERT层用[MASK]标记随机替换序列中的字符词汇，通过多次重复训练获得词向量。

所述GRU层设有并行的更新门zt和遗忘门rt，更新门用于控制前一时刻的输入单元状态信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的状态信息带入越多，重置门控制前一状态有多少信息被写入到当前的候选集上，候选集就是所有标签类别，重置门越小，前一状态的信息被写入的越少。

所述CRF层中，设定随机变量X和Y，P(Y | X)表示给定X条件下Y的概率分布，表示待标记的观测序列，Y为输出变量，表示标记序列或状态序列。

本技术方案通过引GRU层加快了模型训练效率，而且适用于越南语这种文本数据较少的情况，不易过拟合，最后加上构建好的数据字典，对预测结果进行修正，进一步提高了越南语命名实体识别的准确率。

这种方法越南语命名实体识别准确率高。

附图说明

图1为实施例中方法的流程框图示意图。

具体实施方式

下面结合附图和实施例对本发明的内容做进一步的阐述，但不是对本发明的限定。

实施例：

参照图1，一种用于越南语的命名实体识别方法，包括如下步骤：

1）模型训练：所述模型训练的过程为：

1-1）数据输入：模型训练采用的模型为六层结构，包括从上向下依次连接的输入层、变压器的双向编码器表示BERT层、门控循环单元GRU层、条件随机场CRF层、字典修正层和输出层，数据集为文本文件，包括训练集、测试集、验证集，训练集和验证集文本分为两列，分别为单词和标签，实体标签采用BIO体系，人名PER,地名LOC，机构名ORG，其他O，其中每个实体标签的首个单词用字母B作为开头衔接，非首位单词用字母I衔接，验证集文本只包含单词列，将要训练的数据集A以字符a为单位输入BERT层；

2）数据字典构建：所述数据字典构建的过程为：

具体地，本例以模型训练实体、数据字典构建实体和准确率测试实体来阐述：

验证例1：

A)模型训练，具体步骤如下：

A1）数据输入：本例模型训练采用的模型为六层结构，包括从上向下依次连接的输入层、变压器的双向编码器表示BERT层、门控循环单元GRU层、条件随机场CRF层、字典修正层和输出层，数据集为文本文件，包括训练集、测试集、验证集，训练集和验证集文本分为两列，分别为单词和标签，实体标签采用BIO体系，人名PER,地名LOC，机构名ORG，其他O，其中每个实体标签的首个单词用字母B作为开头衔接，非首位单词用字母I衔接，验证集文本只包含单词列，本验证例所用数据集包括单词944798个，其中包括地名13790个，人名7752个，机构名9238个，按7：2：1的比例划分为训练集、测试集、验证集，之后以将数据集以字符为单位传入BERT层；

A2）BERT层训练：接收传入的单词，并以标点符号中的句号为一个序列的划分标准，以序列为单位分批处理，每个序列最大长度设定为202，序列头加入标记[CLS]，序列之间用[SEP]隔开，批量大小设定为64，学习率设定为0.001，BERT层所有标签类别为"O", 'B-TIM', 'I-TIM', "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "X", "[CLS]", "[SEP]"，通过BERT层进行词嵌入，得到词向量，之后以序列为单位传入GRU层；

A3）GRU层训练：接收BERT层传入的词向量，设定相关参数输入维度input_dim为128，一次处理的句子数目bch_size为5，句子最大长度设定为202，通过GRU层提取词向量特征，并将得到的特征提取结果传入CRF层；

A4）CRF层训练：接收GRU层的输出并将其传入CRF层，CRF层通过采用维特比算法，并通过转移特征和状态特征预测出最优结果；

B）结果验证，具体步骤如下：

B1)数据字典修正：以维基百科的数据为基准，人工爬取越南相关的具有代表性的人名、地名、机构名，并手动标注实体标签，并通过数据字典对CRF层的预测结果进行修正，并将预测结果发送给准确率测试实体；

B2）结果验证：将得到的预测结果在验证集上进行准确率验证，验证标准为F1，最终本次测试的F1为95.53%。

验证例2：

本例中用word2vec代替BERT作为词向量处理层，其余同验证例1。

验证例3：

本例中BERT层批量大小设定为128，其余同验证例1。

验证例4：

本例中BERT层学习率设定为0.0001，其余同验证例1。

Claims

1.一种用于越南语的命名实体识别方法，其特征在于，包括如下步骤：

1）模型训练：所述模型训练的过程为：

1-3）GRU层训练： GRU层输出每个标签的预测分值，并将结果传入训练模型中CRF层；

2）数据字典构建：所述数据字典构建的过程为：

2.根据权利要求1所述的用于越南语的命名实体识别方法，其特征在于，所述步骤1-2）中，BERT层依次接收传入的数据，并以标点符号句号截至作为一个输入序列l，对每个输入序列l,BERT层用[MASK]标记随机替换序列中的字符词汇，通过多次重复训练获得词向量。

3.根据权利要求1所述的用于越南语的命名实体识别方法，其特征在于，所述GRU层设有并行的更新门zt和遗忘门rt，更新门用于控制前一时刻的输入单元状态信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的状态信息带入越多，重置门控制前一状态有多少信息被写入到当前的候选集上，候选集就是所有标签类别，重置门越小，前一状态的信息被写入的越少。

4.根据权利要求1所述的用于越南语的命名实体识别方法，其特征在于，所述CRF层中，设定随机变量X和Y，P(Y | X)表示给定X条件下Y的概率分布，表示待标记的观测序列，Y为输出变量，表示标记序列或状态序列。