CN111339779A - 一种用于越南语的命名实体识别方法 - Google Patents

一种用于越南语的命名实体识别方法 Download PDF

Info

Publication number
CN111339779A
CN111339779A CN202010199125.7A CN202010199125A CN111339779A CN 111339779 A CN111339779 A CN 111339779A CN 202010199125 A CN202010199125 A CN 202010199125A CN 111339779 A CN111339779 A CN 111339779A
Authority
CN
China
Prior art keywords
layer
training
data
sequence
crf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010199125.7A
Other languages
English (en)
Inventor
黄永忠
田磊
廖显文
吴辉文
庄浩宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202010199125.7A priority Critical patent/CN111339779A/zh
Publication of CN111339779A publication Critical patent/CN111339779A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种用于越南语的命名实体识别方法,其特征在于,包括如下步骤:1)模型训练;2)数据字典构建,所述模型训练包括:1‑1)数据输入;1‑2)BERT层训练;1‑3)GRU层训练;1‑4)CRF层训练,所述数据字典构建包括:2‑1)数据字典修正;2‑2)结果验证。这种方法越南语命名实体识别准确率高。

Description

一种用于越南语的命名实体识别方法
技术领域
本发明涉及计算机应用技术领域,特别是自然语言处理技术,具体是一种用于越南语的命名实体识别方法。
背景技术
随着互联网技术的飞速发展以及自然语言处理领域研究的不断深入,可用信息资源得到极大丰富,人们迫切需要从海量非结构化文本中获取有用信息,在这种背景下,命名实体识别技术应运而生。命名实体识别是自然语言处理中的一个基本任务,目的是识别文本当中的人名、地名、机构名等命名实体,在所有设计自然语言处理的研究中,这是一个必须攻克的任务。命名实体识别作为信息抽取、问答系统、机器翻译等任务中的基础工作,近年来在多媒体索引、半监督和无监督的学习、复杂语言环境和机器翻译等方面取得大量新的研究成果。
然而,当前命名实体识别技术只是在汉语,英语等大语种上有较高的准确率,而且文本类型也仅仅局限于新闻文本,对于越南语等小语种来说,命名实体识别技术依旧是一个亟待解决的问题,语料库严重不足,这也对我们的研究造成了极大的阻碍,人工标注耗时耗力,极大增加了研究成本。有研究者注意到了这个问题,例如Pham等人提出了一种在线学习算法,MIRA等人提出了一种条件随机场(CRF)和引导结合的方法。但这些方法的识别准确率仍有待提高。
发明内容
本发明的目的是针对现有技术得不足,而提供一种用于越南语的命名实体识别方法。这种方法越南语命名实体识别准确率高。
实现本发明目的的技术方案是:
一种用于越南语的命名实体识别方法,包括如下步骤:
1)模型训练:所述模型训练的过程为:
1-1)数据输入:模型训练采用的模型为六层结构,包括从上向下依次连接的输入层、变压器的双向编码器表示(Bidirectional Encoder Representations from Transformers,简称BERT)层、门控循环单元(Gated Recurrent Unit简称GRU)层、条件随机场(Conditional Random Field 简称CRF)层、字典修正层和输出层,数据集为文本文件,包括训练集、测试集、验证集,训练集和验证集文本分为两列,分别为单词和标签,实体标签采用BIO体系,人名PER,地名LOC,机构名ORG,其他O,其中每个实体标签的首个单词用字母B作为开头衔接,非首位单词用字母I衔接,验证集文本只包含单词列,将要训练的数据集A以字符a为单位输入BERT层;
1-2)BERT层训练:将步骤1-1)中数据a输入训练模型中的BERT层,生成词向量并输入到训练模型中GRU层;
1-3)GRU层训练:将训练模型中BERT层生成的词向量输入训练模型中GRU层,GRU层输出每个标签的预测分值,并将结果传入训练模型中CRF层;
1-4)CRF层训练:将GRU层得到的标签预测分值作为CRF层的输入,通过CRF层得到修正后的输出序列;
2)数据字典构建:所述数据字典构建的过程为:
2-1)数据字典修正:人工搜集越南具有代表性的人名PER、地名LOC、机构名ORG,手动标注实体标签,标注体系为IOB体系,将其作为数据字典,并通过数据字典对步骤1-4)中CRF层的预测结果进行修正,根据数据字典中的正确标签与预测结果对比,修正错误的预测结果;
2-2)结果验证:对步骤2-1)的结果在验证集上进行准确率验证,测试集格式与训练集A格式完全相同,验证方法为识别出的正确实体数除以识别出的实体总数。
所述步骤1-2)中,BERT层依次接收传入的数据,并以标点符号句号截至作为一个输入序列l,对每个输入序列l,BERT层用[MASK]标记随机替换序列中的字符词汇,通过多次重复训练获得词向量。
所述GRU层设有并行的更新门zt和遗忘门rt,更新门用于控制前一时刻的输入单元状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多,重置门控制前一状态有多少信息被写入到当前的候选集上,候选集就是所有标签类别,重置门越小,前一状态的信息被写入的越少。
所述CRF层中,设定随机变量X和Y,P(Y | X)表示给定X条件下Y的概率分布,表示待标记的观测序列,Y为输出变量,表示标记序列或状态序列。
本技术方案通过引GRU层加快了模型训练效率,而且适用于越南语这种文本数据较少的情况,不易过拟合,最后加上构建好的数据字典,对预测结果进行修正,进一步提高了越南语命名实体识别的准确率。
这种方法越南语命名实体识别准确率高。
附图说明
图1为实施例中方法的流程框图示意图。
具体实施方式
下面结合附图和实施例对本发明的内容做进一步的阐述,但不是对本发明的限定。
实施例:
参照图1,一种用于越南语的命名实体识别方法,包括如下步骤:
1)模型训练:所述模型训练的过程为:
1-1)数据输入:模型训练采用的模型为六层结构,包括从上向下依次连接的输入层、变压器的双向编码器表示BERT层、门控循环单元GRU层、条件随机场CRF层、字典修正层和输出层,数据集为文本文件,包括训练集、测试集、验证集,训练集和验证集文本分为两列,分别为单词和标签,实体标签采用BIO体系,人名PER,地名LOC,机构名ORG,其他O,其中每个实体标签的首个单词用字母B作为开头衔接,非首位单词用字母I衔接,验证集文本只包含单词列,将要训练的数据集A以字符a为单位输入BERT层;
1-2)BERT层训练:将步骤1-1)中数据a输入训练模型中的BERT层,生成词向量并输入到训练模型中GRU层;
1-3)GRU层训练:将训练模型中BERT层生成的词向量输入训练模型中GRU层,GRU层输出每个标签的预测分值,并将结果传入训练模型中CRF层;
1-4)CRF层训练:将GRU层得到的标签预测分值作为CRF层的输入,通过CRF层得到修正后的输出序列;
2)数据字典构建:所述数据字典构建的过程为:
2-1)数据字典修正:人工搜集越南具有代表性的人名PER、地名LOC、机构名ORG,手动标注实体标签,标注体系为IOB体系,将其作为数据字典,并通过数据字典对步骤1-4)中CRF层的预测结果进行修正,根据数据字典中的正确标签与预测结果对比,修正错误的预测结果;
2-2)结果验证:对步骤2-1)的结果在验证集上进行准确率验证,测试集格式与训练集A格式完全相同,验证方法为识别出的正确实体数除以识别出的实体总数。
所述步骤1-2)中,BERT层依次接收传入的数据,并以标点符号句号截至作为一个输入序列l,对每个输入序列l,BERT层用[MASK]标记随机替换序列中的字符词汇,通过多次重复训练获得词向量。
所述GRU层设有并行的更新门zt和遗忘门rt,更新门用于控制前一时刻的输入单元状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多,重置门控制前一状态有多少信息被写入到当前的候选集上,候选集就是所有标签类别,重置门越小,前一状态的信息被写入的越少。
所述CRF层中,设定随机变量X和Y,P(Y | X)表示给定X条件下Y的概率分布,表示待标记的观测序列,Y为输出变量,表示标记序列或状态序列。
具体地,本例以模型训练实体、数据字典构建实体和准确率测试实体来阐述:
验证例1:
A)模型训练,具体步骤如下:
A1)数据输入:本例模型训练采用的模型为六层结构,包括从上向下依次连接的输入层、变压器的双向编码器表示BERT层、门控循环单元GRU层、条件随机场CRF层、字典修正层和输出层,数据集为文本文件,包括训练集、测试集、验证集,训练集和验证集文本分为两列,分别为单词和标签,实体标签采用BIO体系,人名PER,地名LOC,机构名ORG,其他O,其中每个实体标签的首个单词用字母B作为开头衔接,非首位单词用字母I衔接,验证集文本只包含单词列,本验证例所用数据集包括单词944798个,其中包括地名13790个,人名7752个,机构名9238个,按7:2:1的比例划分为训练集、测试集、验证集,之后以将数据集以字符为单位传入BERT层;
A2)BERT层训练:接收传入的单词,并以标点符号中的句号为一个序列的划分标准,以序列为单位分批处理,每个序列最大长度设定为202,序列头加入标记[CLS],序列之间用[SEP]隔开,批量大小设定为64,学习率设定为0.001,BERT层所有标签类别为"O", 'B-TIM', 'I-TIM', "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "X", "[CLS]", "[SEP]",通过BERT层进行词嵌入,得到词向量 ,之后以序列为单位传入GRU层;
A3)GRU层训练:接收BERT层传入的词向量 ,设定相关参数输入维度input_dim为128,一次处理的句子数目bch_size为5,句子最大长度设定为202,通过GRU层提取词向量特征,并将得到的特征提取结果 传入CRF层;
A4)CRF层训练:接收GRU层的输出并将其传入CRF层,CRF层通过采用维特比算法,并通过转移特征和状态特征预测出最优结果;
B)结果验证,具体步骤如下:
B1)数据字典修正:以维基百科的数据为基准,人工爬取越南相关的具有代表性的人名、地名、机构名,并手动标注实体标签,并通过数据字典对CRF层的预测结果 进行修正,并将预测结果发送给准确率测试实体;
B2)结果验证:将得到的预测结果在验证集上进行准确率验证,验证标准为F1,最终本次测试的F1为95.53%。
验证例2:
本例中用word2vec代替BERT作为词向量处理层,其余同验证例1。
验证例3:
本例中BERT层批量大小设定为128,其余同验证例1。
验证例4:
本例中BERT层学习率设定为0.0001,其余同验证例1。

Claims (4)

1.一种用于越南语的命名实体识别方法,其特征在于,包括如下步骤:
1)模型训练:所述模型训练的过程为:
1-1)数据输入:模型训练采用的模型为六层结构,包括从上向下依次连接的输入层、变压器的双向编码器表示BERT层、门控循环单元GRU层、条件随机场CRF层、字典修正层和输出层,数据集为文本文件,包括训练集、测试集、验证集,训练集和验证集文本分为两列,分别为单词和标签,实体标签采用BIO体系,人名PER,地名LOC,机构名ORG,其他O,其中每个实体标签的首个单词用字母B作为开头衔接,非首位单词用字母I衔接,验证集文本只包含单词列,将要训练的数据集A以字符a为单位输入BERT层;
1-2)BERT层训练:将步骤1-1)中数据a输入训练模型中的BERT层,生成词向量并输入到训练模型中GRU层;
1-3)GRU层训练: GRU层输出每个标签的预测分值,并将结果传入训练模型中CRF层;
1-4)CRF层训练:将GRU层得到的标签预测分值作为CRF层的输入,通过CRF层得到修正后的输出序列;
2)数据字典构建:所述数据字典构建的过程为:
2-1)数据字典修正:人工搜集越南具有代表性的人名PER、地名LOC、机构名ORG,手动标注实体标签,标注体系为IOB体系,将其作为数据字典,并通过数据字典对步骤1-4)中CRF层的预测结果进行修正,根据数据字典中的正确标签与预测结果对比,修正错误的预测结果;
2-2)结果验证:对步骤2-1)的结果在验证集上进行准确率验证,测试集格式与训练集A格式完全相同,验证方法为识别出的正确实体数除以识别出的实体总数。
2.根据权利要求1所述的用于越南语的命名实体识别方法,其特征在于,所述步骤1-2)中,BERT层依次接收传入的数据,并以标点符号句号截至作为一个输入序列l,对每个输入序列l,BERT层用[MASK]标记随机替换序列中的字符词汇,通过多次重复训练获得词向量。
3.根据权利要求1所述的用于越南语的命名实体识别方法,其特征在于,所述GRU层设有并行的更新门zt和遗忘门rt,更新门用于控制前一时刻的输入单元状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多,重置门控制前一状态有多少信息被写入到当前的候选集上,候选集就是所有标签类别,重置门越小,前一状态的信息被写入的越少。
4.根据权利要求1所述的用于越南语的命名实体识别方法,其特征在于,所述CRF层中,设定随机变量X和Y,P(Y | X)表示给定X条件下Y的概率分布,表示待标记的观测序列,Y为输出变量,表示标记序列或状态序列。
CN202010199125.7A 2020-03-20 2020-03-20 一种用于越南语的命名实体识别方法 Pending CN111339779A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010199125.7A CN111339779A (zh) 2020-03-20 2020-03-20 一种用于越南语的命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010199125.7A CN111339779A (zh) 2020-03-20 2020-03-20 一种用于越南语的命名实体识别方法

Publications (1)

Publication Number Publication Date
CN111339779A true CN111339779A (zh) 2020-06-26

Family

ID=71186694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010199125.7A Pending CN111339779A (zh) 2020-03-20 2020-03-20 一种用于越南语的命名实体识别方法

Country Status (1)

Country Link
CN (1) CN111339779A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308370A (zh) * 2020-09-16 2021-02-02 湘潭大学 一种基于Transformer的面向思政课程的主观题自动评分技术
CN114330328A (zh) * 2021-12-13 2022-04-12 电子科技大学 基于Transformer-CRF的藏文分词方法
CN114900362A (zh) * 2022-05-16 2022-08-12 桂林电子科技大学 一种基于行为图和Weisfeiler Lehman算法的可扩展网络攻击检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388560A (zh) * 2018-03-17 2018-08-10 北京工业大学 基于语言模型的gru-crf会议名称识别方法
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110717331A (zh) * 2019-10-21 2020-01-21 北京爱医博通信息技术有限公司 一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388560A (zh) * 2018-03-17 2018-08-10 北京工业大学 基于语言模型的gru-crf会议名称识别方法
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110717331A (zh) * 2019-10-21 2020-01-21 北京爱医博通信息技术有限公司 一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
何炎祥等: "基于CRF和规则相结合的地理命名实体识别方法", 《计算机应用与软件》 *
杨 飘: ""基于 BERT 嵌入的中文命名实体识别方法"", 《计算机工程》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308370A (zh) * 2020-09-16 2021-02-02 湘潭大学 一种基于Transformer的面向思政课程的主观题自动评分技术
CN112308370B (zh) * 2020-09-16 2024-03-05 湘潭大学 一种基于Transformer的面向思政课程的主观题自动评分方法
CN114330328A (zh) * 2021-12-13 2022-04-12 电子科技大学 基于Transformer-CRF的藏文分词方法
CN114330328B (zh) * 2021-12-13 2023-10-10 电子科技大学 基于Transformer-CRF的藏文分词方法
CN114900362A (zh) * 2022-05-16 2022-08-12 桂林电子科技大学 一种基于行为图和Weisfeiler Lehman算法的可扩展网络攻击检测方法
CN114900362B (zh) * 2022-05-16 2024-10-15 桂林电子科技大学 一种基于行为图和Weisfeiler Lehman算法的可扩展网络攻击检测方法

Similar Documents

Publication Publication Date Title
US11501182B2 (en) Method and apparatus for generating model
CN110287480B (zh) 一种命名实体识别方法、装置、存储介质及终端设备
CN110489760A (zh) 基于深度神经网络文本自动校对方法及装置
CN108846017A (zh) 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法
CN110196913A (zh) 基于文本生成式的多实体关系联合抽取方法和装置
CN110134949B (zh) 一种基于教师监督的文本标注方法和设备
CN111339779A (zh) 一种用于越南语的命名实体识别方法
CN101002198A (zh) 用于非罗马字符和字的拼写校正系统和方法
CN110276069A (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN109960728A (zh) 一种开放域会议信息命名实体识别方法及系统
CN110110334B (zh) 一种基于自然语言处理的远程会诊记录文本纠错方法
Jabbar et al. An improved Urdu stemming algorithm for text mining based on multi-step hybrid approach
CN110633467A (zh) 一种基于改进特征融合的语义关系抽取方法
CN110674642B (zh) 一种用于含噪稀疏文本的语义关系抽取方法
CN114943230A (zh) 一种融合常识知识的中文特定领域实体链接方法
CN108563725A (zh) 一种中文症状体征构成识别方法
CN116258137A (zh) 文本纠错方法、装置、设备和存储介质
CN113918031A (zh) 使用子字符信息进行中文标点恢复的系统和方法
CN114970502B (zh) 一种应用于数字政府的文本纠错方法
CN109815497B (zh) 基于句法依存的人物属性抽取方法
CN115269834A (zh) 一种基于bert的高精度文本分类方法及装置
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN116720520A (zh) 一种面向文本数据的别名实体快速识别方法及系统
CN116166768A (zh) 一种基于规则的文本知识抽取方法及系统
CN114896966B (zh) 一种中文文本语法错误定位方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200626

WD01 Invention patent application deemed withdrawn after publication