CN111339779A - 一种用于越南语的命名实体识别方法 - Google Patents
一种用于越南语的命名实体识别方法 Download PDFInfo
- Publication number
- CN111339779A CN111339779A CN202010199125.7A CN202010199125A CN111339779A CN 111339779 A CN111339779 A CN 111339779A CN 202010199125 A CN202010199125 A CN 202010199125A CN 111339779 A CN111339779 A CN 111339779A
- Authority
- CN
- China
- Prior art keywords
- layer
- training
- data
- sequence
- crf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 60
- 238000012795 verification Methods 0.000 claims description 34
- 239000013598 vector Substances 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 11
- 238000012937 correction Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 5
- 230000008520 organization Effects 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000004883 computer application Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种用于越南语的命名实体识别方法,其特征在于,包括如下步骤:1)模型训练;2)数据字典构建,所述模型训练包括:1‑1)数据输入;1‑2)BERT层训练;1‑3)GRU层训练;1‑4)CRF层训练,所述数据字典构建包括:2‑1)数据字典修正;2‑2)结果验证。这种方法越南语命名实体识别准确率高。
Description
技术领域
本发明涉及计算机应用技术领域,特别是自然语言处理技术,具体是一种用于越南语的命名实体识别方法。
背景技术
随着互联网技术的飞速发展以及自然语言处理领域研究的不断深入,可用信息资源得到极大丰富,人们迫切需要从海量非结构化文本中获取有用信息,在这种背景下,命名实体识别技术应运而生。命名实体识别是自然语言处理中的一个基本任务,目的是识别文本当中的人名、地名、机构名等命名实体,在所有设计自然语言处理的研究中,这是一个必须攻克的任务。命名实体识别作为信息抽取、问答系统、机器翻译等任务中的基础工作,近年来在多媒体索引、半监督和无监督的学习、复杂语言环境和机器翻译等方面取得大量新的研究成果。
然而,当前命名实体识别技术只是在汉语,英语等大语种上有较高的准确率,而且文本类型也仅仅局限于新闻文本,对于越南语等小语种来说,命名实体识别技术依旧是一个亟待解决的问题,语料库严重不足,这也对我们的研究造成了极大的阻碍,人工标注耗时耗力,极大增加了研究成本。有研究者注意到了这个问题,例如Pham等人提出了一种在线学习算法,MIRA等人提出了一种条件随机场(CRF)和引导结合的方法。但这些方法的识别准确率仍有待提高。
发明内容
本发明的目的是针对现有技术得不足,而提供一种用于越南语的命名实体识别方法。这种方法越南语命名实体识别准确率高。
实现本发明目的的技术方案是:
一种用于越南语的命名实体识别方法,包括如下步骤:
1)模型训练:所述模型训练的过程为:
1-1)数据输入:模型训练采用的模型为六层结构,包括从上向下依次连接的输入层、变压器的双向编码器表示(Bidirectional Encoder Representations from Transformers,简称BERT)层、门控循环单元(Gated Recurrent Unit简称GRU)层、条件随机场(Conditional Random Field 简称CRF)层、字典修正层和输出层,数据集为文本文件,包括训练集、测试集、验证集,训练集和验证集文本分为两列,分别为单词和标签,实体标签采用BIO体系,人名PER,地名LOC,机构名ORG,其他O,其中每个实体标签的首个单词用字母B作为开头衔接,非首位单词用字母I衔接,验证集文本只包含单词列,将要训练的数据集A以字符a为单位输入BERT层;
1-2)BERT层训练:将步骤1-1)中数据a输入训练模型中的BERT层,生成词向量并输入到训练模型中GRU层;
1-3)GRU层训练:将训练模型中BERT层生成的词向量输入训练模型中GRU层,GRU层输出每个标签的预测分值,并将结果传入训练模型中CRF层;
1-4)CRF层训练:将GRU层得到的标签预测分值作为CRF层的输入,通过CRF层得到修正后的输出序列;
2)数据字典构建:所述数据字典构建的过程为:
2-1)数据字典修正:人工搜集越南具有代表性的人名PER、地名LOC、机构名ORG,手动标注实体标签,标注体系为IOB体系,将其作为数据字典,并通过数据字典对步骤1-4)中CRF层的预测结果进行修正,根据数据字典中的正确标签与预测结果对比,修正错误的预测结果;
2-2)结果验证:对步骤2-1)的结果在验证集上进行准确率验证,测试集格式与训练集A格式完全相同,验证方法为识别出的正确实体数除以识别出的实体总数。
所述步骤1-2)中,BERT层依次接收传入的数据,并以标点符号句号截至作为一个输入序列l,对每个输入序列l,BERT层用[MASK]标记随机替换序列中的字符词汇,通过多次重复训练获得词向量。
所述GRU层设有并行的更新门zt和遗忘门rt,更新门用于控制前一时刻的输入单元状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多,重置门控制前一状态有多少信息被写入到当前的候选集上,候选集就是所有标签类别,重置门越小,前一状态的信息被写入的越少。
所述CRF层中,设定随机变量X和Y,P(Y | X)表示给定X条件下Y的概率分布,表示待标记的观测序列,Y为输出变量,表示标记序列或状态序列。
本技术方案通过引GRU层加快了模型训练效率,而且适用于越南语这种文本数据较少的情况,不易过拟合,最后加上构建好的数据字典,对预测结果进行修正,进一步提高了越南语命名实体识别的准确率。
这种方法越南语命名实体识别准确率高。
附图说明
图1为实施例中方法的流程框图示意图。
具体实施方式
下面结合附图和实施例对本发明的内容做进一步的阐述,但不是对本发明的限定。
实施例:
参照图1,一种用于越南语的命名实体识别方法,包括如下步骤:
1)模型训练:所述模型训练的过程为:
1-1)数据输入:模型训练采用的模型为六层结构,包括从上向下依次连接的输入层、变压器的双向编码器表示BERT层、门控循环单元GRU层、条件随机场CRF层、字典修正层和输出层,数据集为文本文件,包括训练集、测试集、验证集,训练集和验证集文本分为两列,分别为单词和标签,实体标签采用BIO体系,人名PER,地名LOC,机构名ORG,其他O,其中每个实体标签的首个单词用字母B作为开头衔接,非首位单词用字母I衔接,验证集文本只包含单词列,将要训练的数据集A以字符a为单位输入BERT层;
1-2)BERT层训练:将步骤1-1)中数据a输入训练模型中的BERT层,生成词向量并输入到训练模型中GRU层;
1-3)GRU层训练:将训练模型中BERT层生成的词向量输入训练模型中GRU层,GRU层输出每个标签的预测分值,并将结果传入训练模型中CRF层;
1-4)CRF层训练:将GRU层得到的标签预测分值作为CRF层的输入,通过CRF层得到修正后的输出序列;
2)数据字典构建:所述数据字典构建的过程为:
2-1)数据字典修正:人工搜集越南具有代表性的人名PER、地名LOC、机构名ORG,手动标注实体标签,标注体系为IOB体系,将其作为数据字典,并通过数据字典对步骤1-4)中CRF层的预测结果进行修正,根据数据字典中的正确标签与预测结果对比,修正错误的预测结果;
2-2)结果验证:对步骤2-1)的结果在验证集上进行准确率验证,测试集格式与训练集A格式完全相同,验证方法为识别出的正确实体数除以识别出的实体总数。
所述步骤1-2)中,BERT层依次接收传入的数据,并以标点符号句号截至作为一个输入序列l,对每个输入序列l,BERT层用[MASK]标记随机替换序列中的字符词汇,通过多次重复训练获得词向量。
所述GRU层设有并行的更新门zt和遗忘门rt,更新门用于控制前一时刻的输入单元状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多,重置门控制前一状态有多少信息被写入到当前的候选集上,候选集就是所有标签类别,重置门越小,前一状态的信息被写入的越少。
所述CRF层中,设定随机变量X和Y,P(Y | X)表示给定X条件下Y的概率分布,表示待标记的观测序列,Y为输出变量,表示标记序列或状态序列。
具体地,本例以模型训练实体、数据字典构建实体和准确率测试实体来阐述:
验证例1:
A)模型训练,具体步骤如下:
A1)数据输入:本例模型训练采用的模型为六层结构,包括从上向下依次连接的输入层、变压器的双向编码器表示BERT层、门控循环单元GRU层、条件随机场CRF层、字典修正层和输出层,数据集为文本文件,包括训练集、测试集、验证集,训练集和验证集文本分为两列,分别为单词和标签,实体标签采用BIO体系,人名PER,地名LOC,机构名ORG,其他O,其中每个实体标签的首个单词用字母B作为开头衔接,非首位单词用字母I衔接,验证集文本只包含单词列,本验证例所用数据集包括单词944798个,其中包括地名13790个,人名7752个,机构名9238个,按7:2:1的比例划分为训练集、测试集、验证集,之后以将数据集以字符为单位传入BERT层;
A2)BERT层训练:接收传入的单词,并以标点符号中的句号为一个序列的划分标准,以序列为单位分批处理,每个序列最大长度设定为202,序列头加入标记[CLS],序列之间用[SEP]隔开,批量大小设定为64,学习率设定为0.001,BERT层所有标签类别为"O", 'B-TIM', 'I-TIM', "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "X", "[CLS]", "[SEP]",通过BERT层进行词嵌入,得到词向量 ,之后以序列为单位传入GRU层;
A3)GRU层训练:接收BERT层传入的词向量 ,设定相关参数输入维度input_dim为128,一次处理的句子数目bch_size为5,句子最大长度设定为202,通过GRU层提取词向量特征,并将得到的特征提取结果 传入CRF层;
A4)CRF层训练:接收GRU层的输出并将其传入CRF层,CRF层通过采用维特比算法,并通过转移特征和状态特征预测出最优结果;
B)结果验证,具体步骤如下:
B1)数据字典修正:以维基百科的数据为基准,人工爬取越南相关的具有代表性的人名、地名、机构名,并手动标注实体标签,并通过数据字典对CRF层的预测结果 进行修正,并将预测结果发送给准确率测试实体;
B2)结果验证:将得到的预测结果在验证集上进行准确率验证,验证标准为F1,最终本次测试的F1为95.53%。
验证例2:
本例中用word2vec代替BERT作为词向量处理层,其余同验证例1。
验证例3:
本例中BERT层批量大小设定为128,其余同验证例1。
验证例4:
本例中BERT层学习率设定为0.0001,其余同验证例1。
Claims (4)
1.一种用于越南语的命名实体识别方法,其特征在于,包括如下步骤:
1)模型训练:所述模型训练的过程为:
1-1)数据输入:模型训练采用的模型为六层结构,包括从上向下依次连接的输入层、变压器的双向编码器表示BERT层、门控循环单元GRU层、条件随机场CRF层、字典修正层和输出层,数据集为文本文件,包括训练集、测试集、验证集,训练集和验证集文本分为两列,分别为单词和标签,实体标签采用BIO体系,人名PER,地名LOC,机构名ORG,其他O,其中每个实体标签的首个单词用字母B作为开头衔接,非首位单词用字母I衔接,验证集文本只包含单词列,将要训练的数据集A以字符a为单位输入BERT层;
1-2)BERT层训练:将步骤1-1)中数据a输入训练模型中的BERT层,生成词向量并输入到训练模型中GRU层;
1-3)GRU层训练: GRU层输出每个标签的预测分值,并将结果传入训练模型中CRF层;
1-4)CRF层训练:将GRU层得到的标签预测分值作为CRF层的输入,通过CRF层得到修正后的输出序列;
2)数据字典构建:所述数据字典构建的过程为:
2-1)数据字典修正:人工搜集越南具有代表性的人名PER、地名LOC、机构名ORG,手动标注实体标签,标注体系为IOB体系,将其作为数据字典,并通过数据字典对步骤1-4)中CRF层的预测结果进行修正,根据数据字典中的正确标签与预测结果对比,修正错误的预测结果;
2-2)结果验证:对步骤2-1)的结果在验证集上进行准确率验证,测试集格式与训练集A格式完全相同,验证方法为识别出的正确实体数除以识别出的实体总数。
2.根据权利要求1所述的用于越南语的命名实体识别方法,其特征在于,所述步骤1-2)中,BERT层依次接收传入的数据,并以标点符号句号截至作为一个输入序列l,对每个输入序列l,BERT层用[MASK]标记随机替换序列中的字符词汇,通过多次重复训练获得词向量。
3.根据权利要求1所述的用于越南语的命名实体识别方法,其特征在于,所述GRU层设有并行的更新门zt和遗忘门rt,更新门用于控制前一时刻的输入单元状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多,重置门控制前一状态有多少信息被写入到当前的候选集上,候选集就是所有标签类别,重置门越小,前一状态的信息被写入的越少。
4.根据权利要求1所述的用于越南语的命名实体识别方法,其特征在于,所述CRF层中,设定随机变量X和Y,P(Y | X)表示给定X条件下Y的概率分布,表示待标记的观测序列,Y为输出变量,表示标记序列或状态序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010199125.7A CN111339779A (zh) | 2020-03-20 | 2020-03-20 | 一种用于越南语的命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010199125.7A CN111339779A (zh) | 2020-03-20 | 2020-03-20 | 一种用于越南语的命名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111339779A true CN111339779A (zh) | 2020-06-26 |
Family
ID=71186694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010199125.7A Pending CN111339779A (zh) | 2020-03-20 | 2020-03-20 | 一种用于越南语的命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339779A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112308370A (zh) * | 2020-09-16 | 2021-02-02 | 湘潭大学 | 一种基于Transformer的面向思政课程的主观题自动评分技术 |
CN114330328A (zh) * | 2021-12-13 | 2022-04-12 | 电子科技大学 | 基于Transformer-CRF的藏文分词方法 |
CN114900362A (zh) * | 2022-05-16 | 2022-08-12 | 桂林电子科技大学 | 一种基于行为图和Weisfeiler Lehman算法的可扩展网络攻击检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108388560A (zh) * | 2018-03-17 | 2018-08-10 | 北京工业大学 | 基于语言模型的gru-crf会议名称识别方法 |
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
CN110717331A (zh) * | 2019-10-21 | 2020-01-21 | 北京爱医博通信息技术有限公司 | 一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质 |
-
2020
- 2020-03-20 CN CN202010199125.7A patent/CN111339779A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108388560A (zh) * | 2018-03-17 | 2018-08-10 | 北京工业大学 | 基于语言模型的gru-crf会议名称识别方法 |
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
CN110717331A (zh) * | 2019-10-21 | 2020-01-21 | 北京爱医博通信息技术有限公司 | 一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质 |
Non-Patent Citations (2)
Title |
---|
何炎祥等: "基于CRF和规则相结合的地理命名实体识别方法", 《计算机应用与软件》 * |
杨 飘: ""基于 BERT 嵌入的中文命名实体识别方法"", 《计算机工程》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112308370A (zh) * | 2020-09-16 | 2021-02-02 | 湘潭大学 | 一种基于Transformer的面向思政课程的主观题自动评分技术 |
CN112308370B (zh) * | 2020-09-16 | 2024-03-05 | 湘潭大学 | 一种基于Transformer的面向思政课程的主观题自动评分方法 |
CN114330328A (zh) * | 2021-12-13 | 2022-04-12 | 电子科技大学 | 基于Transformer-CRF的藏文分词方法 |
CN114330328B (zh) * | 2021-12-13 | 2023-10-10 | 电子科技大学 | 基于Transformer-CRF的藏文分词方法 |
CN114900362A (zh) * | 2022-05-16 | 2022-08-12 | 桂林电子科技大学 | 一种基于行为图和Weisfeiler Lehman算法的可扩展网络攻击检测方法 |
CN114900362B (zh) * | 2022-05-16 | 2024-10-15 | 桂林电子科技大学 | 一种基于行为图和Weisfeiler Lehman算法的可扩展网络攻击检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11501182B2 (en) | Method and apparatus for generating model | |
CN110287480B (zh) | 一种命名实体识别方法、装置、存储介质及终端设备 | |
CN110489760A (zh) | 基于深度神经网络文本自动校对方法及装置 | |
CN108846017A (zh) | 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法 | |
CN110196913A (zh) | 基于文本生成式的多实体关系联合抽取方法和装置 | |
CN110134949B (zh) | 一种基于教师监督的文本标注方法和设备 | |
CN111339779A (zh) | 一种用于越南语的命名实体识别方法 | |
CN101002198A (zh) | 用于非罗马字符和字的拼写校正系统和方法 | |
CN110276069A (zh) | 一种中国盲文错误自动检测方法、系统及存储介质 | |
CN109960728A (zh) | 一种开放域会议信息命名实体识别方法及系统 | |
CN110110334B (zh) | 一种基于自然语言处理的远程会诊记录文本纠错方法 | |
Jabbar et al. | An improved Urdu stemming algorithm for text mining based on multi-step hybrid approach | |
CN110633467A (zh) | 一种基于改进特征融合的语义关系抽取方法 | |
CN110674642B (zh) | 一种用于含噪稀疏文本的语义关系抽取方法 | |
CN114943230A (zh) | 一种融合常识知识的中文特定领域实体链接方法 | |
CN108563725A (zh) | 一种中文症状体征构成识别方法 | |
CN116258137A (zh) | 文本纠错方法、装置、设备和存储介质 | |
CN113918031A (zh) | 使用子字符信息进行中文标点恢复的系统和方法 | |
CN114970502B (zh) | 一种应用于数字政府的文本纠错方法 | |
CN109815497B (zh) | 基于句法依存的人物属性抽取方法 | |
CN115269834A (zh) | 一种基于bert的高精度文本分类方法及装置 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN116720520A (zh) | 一种面向文本数据的别名实体快速识别方法及系统 | |
CN116166768A (zh) | 一种基于规则的文本知识抽取方法及系统 | |
CN114896966B (zh) | 一种中文文本语法错误定位方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200626 |
|
WD01 | Invention patent application deemed withdrawn after publication |