CN109753650A - 一种融合多特征的老挝语人名地名实体识别方法 - Google Patents
一种融合多特征的老挝语人名地名实体识别方法 Download PDFInfo
- Publication number
- CN109753650A CN109753650A CN201811531250.2A CN201811531250A CN109753650A CN 109753650 A CN109753650 A CN 109753650A CN 201811531250 A CN201811531250 A CN 201811531250A CN 109753650 A CN109753650 A CN 109753650A
- Authority
- CN
- China
- Prior art keywords
- laotian
- name
- vector
- place name
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 32
- 230000004927 fusion Effects 0.000 claims abstract description 9
- 238000012512 characterization method Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 238000009434 installation Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 239000000155 melt Substances 0.000 claims 1
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 abstract 1
- 230000000877 morphologic effect Effects 0.000 abstract 1
- 230000006403 short-term memory Effects 0.000 abstract 1
- 238000010801 machine learning Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种融合多特征的老挝语人名地名实体识别方法,属于自然语言处理中小语种识别领域。本发明融合了老挝语人名和地名的语言特征,使用BLSTM+CRF的算法模型。首先利用BLSTM(双向长短时记忆网络)训练老挝词语的后缀、前缀等形态特征的字符级向量。之后使用Gensim的word2vec在较大规模的老挝语背景语料中,训练具有上下文语义特征信息的词向量,并将字符级特征向量和词向量拼接成完整特征向量。最后将老挝语人名地名语言学特征融合到CRF(条件随机场)算法中,再将完整的特征向量输入到最后一层CRF(条件随机场)中进行命名实体识别训练,得到了融合老挝语语言学特征的命名实体识别模型。本发明在老挝语人名地名实体词识别上精确度有较大提升。
Description
技术领域
本发明涉及一种融合多特征的老挝语人名地名实体识别方法,属于自然语言处理中小语种识别领域。
背景技术
命名实体识别作为自然语言处理的一个重要基础任务,目前学术上主要以神经网络和传统的统计机器学习方法结合作为训练模型。因为相对比传统的统计机器学习方法可以省去人工提取特征的步骤,相对比基于规则的方法其更具有泛化性。因此目前学术中主流的命名实体识别的模型为BLSTM+CRF。虽然BLSTM+CRF在通用命名实体识别领域中展现出了较好的性能,但在老挝语命名实体识别领域中的应用仍存在人名地名识别率不高、模型欠拟合等问题。因为相比于一般领域的命名实体,老挝语命名实体识别有以下几个问题:(1)语料情况复杂,标注语料不充足;(2)语法等命名规则了解不充分;(3)在词性标注和分词较基础领域老挝语研究相对较少。
发明内容
本发明要解决的技术问题是提供一种融合多特征的老挝语人名地名实体识别方法,用于解决老挝语人名地名识别率不高、模型欠拟合等问题。
本发明采用的技术方案是:一种融合多特征的老挝语人名地名实体识别方法,其特征在于:包括以下步骤:
Step1:获取老挝语人名地名命名实体语料,进行语料预处理;
Step2:将BLSTM算法训练老挝语词语的后缀、前缀字符级向量;
Step3:对老挝语词语进行词向量转化,通过Gensim的word2vec模型,训练具有上下文语义的词向量;
Step4:将字符级向量和词向量进行组合拼接,得到完整的特征向量;
Step5:将老挝语人名地名多特征融合到CRF算法模型中,形成优化的CRF模型;
Step6:将Step4得到的完整特征向量输入到Step5得到的CRF优化模型进行老挝语人名地名实体词识别训练。
具体地,所述步骤Step2具体步骤如下:
Step2.1:建立BLSTM模型:使用TensorFlow深度学习框架,python程序语言进行BLSTM算法的编写;
Step2.2:设置模型参数:设置迭代次数为10000次,学习率设置为0.1、0.01、0.001三种,通过最后在训练集上体现的准确率,选择合适的学习率;
Step2.3:训练字符级向量:将老挝语词语进行字符切分,输入到BLSTM算法中进行训练。
具体地,所述步骤Step3具体步骤如下:
Step3.1:老挝语分词:通过老挝语分词工具,通过分词算法计算机会自动将老挝语句子切分成单词;
Step3.2:去除停用词:将老挝语停用词作成一个词典,将分词后的老挝语进行筛选;
Step3.3:训练词向量:首先安装Gensim包,调用Word2vec算法模型,将筛选后的老挝语词语作为输入,Word2vec算法将词语的频率和上下文信息进行训练,最终输出具有了上下文语义特征的词向量。
具体地,所述步骤Step4具体步骤如下:
Step4.1:安装科学计算模块:通过python安装Numpy科学计数模块,进行特征向量的矩阵运算;
Step4.2:特征向量拼接:将步骤Step2中训练的字符级特征向量矩阵维度设置为固定值,将步骤Step3中训练的具有上下文语义特征的词向量矩阵维度设置的和Step2一致,使用加载的Numpy科学计数模块,进行运算,将两组特征向量进行拼接组合成一组特征向量。
具体地,所述步骤Step5具体步骤如下:
Step5.1:整理老挝语语言学特征:老挝人名字前面多有冠词,老挝语地名前多有指示词;
Step5.2:将老挝语语言学特征制定成规则,将规则融合到条件随机场CRF算法中,形成可以对老挝语人名地名实体词的识别的优化的CRF模型。
具体地,所述步骤Step6具体步骤如下:
Step6.1:识别老挝语人名地名:将Step4中拼接成的完整特征向量作为输入,Step5融合老挝语语言学特征的条件随机场CRF算法作为输出层算法,最后输出老挝语人名地名识别标志。
本发明的有益效果是:
(1)该融合老挝语多特征命名实体识别方法中,在老挝语人名地名精度有较大的提高。
(2)该融合老挝语多特征命名实体识别方法中,使用了深度学习和机器学习融合的算法,增加了迭代的次数,优化了训练的速度。
(3)该融合老挝语多特征命名实体识别方法中,在老挝语命名实体语料不充足的情况下也可以有较好的识别精度。
附图说明
图1为本发明中的流程图;
图2为本发明中的BLSTM训练字符级向量的基本结构图;
图3是本发明所采用CRF读取组合向量并输出的基本结构图。
具体实施方式
下面结合附图和具体实施例,对本发明做进一步的说明。
实施例1:如图1-3所示,一种融合老挝语多特征命名实体识别方法,具体步骤如下:
Step1,获取老挝语人名地名命名实体语料,进行预训练操作。所述步骤Step1,数据通过老挝语留学生手动标注语料,30000个老挝语词语,将27000个老挝语词语做训练集,3000个词语做测试集。
Step2,将BLSTM算法训练老挝语词语的后缀、前缀等字符级向量。所述步骤Step2,将step1预训练好的词词语输入到BLSTM来训练,在BLSTM训练前设置学习率、步长等一系列超参数。将迭代次数设置为10000,学习率设置为0.1,0.01.0.001三种,通过最后在训练集上体现的准确率,选择合适的学习率。
Step3,对老挝语词语进行词向量转化,通过Gensim的word2vec模型,训练具有上下文语义的词向量。所述步骤Step3安装Gensim模型,调取模型中word2vec算法,将分好词的老挝语训练集输入到word2vec算法中,设置word2vec部分参数,最后输出老挝语具有语义特征的词向量。
Step4,将字符级向量和词向量进行组合拼接。所述步骤Step4、Step2训练的字符级特征向量和Step3中训练的词向量拼接成大小一致的组合向量。
Step5,将老挝语人名地名多特征融合成CRF规则。所述步骤Step5具体为:安装CRF运行环境,将老挝语人名地名语言学特征编写成CRF可识别规则,形成融合老挝语语言学特征的优化CRF模型,CRF计算公式为:
上面的式子T为转移矩阵,用于刻画相邻分数的依赖转移关系,y1,….,ym代表词的一系列标签,st代表得分向量,m表示词语的个数。在CRF层中应用softmax激活函数,将概率分布计算出来,式子如下:
Z表示概率分布统计,最后,序列概率计算的式子如下:
上式中P代表序列概率的值。
Step6,将完整的特征向量输入到融合了多特征的CRF模型进行老挝语人名地名命名实体识别训练。具体地,将Step4中组合的特征向量输入到Step5融合了老挝语语言学特征的优化CRF模型中,完成最终的老挝语人名地名的识别。
Claims (6)
1.一种融合多特征的老挝语人名地名实体识别方法,其特征在于:包括以下步骤:
Step1:获取老挝语人名地名命名实体语料,进行语料预处理;
Step2:将BLSTM算法训练老挝语词语的后缀、前缀字符级向量;
Step3:对老挝语词语进行词向量转化,通过Gensim的word2vec模型,训练具有上下文语义的词向量;
Step4:将字符级向量和词向量进行组合拼接,得到完整的特征向量;
Step5:将老挝语人名地名多特征融合到CRF算法模型中,形成优化的CRF模型;
Step6:将Step4得到的完整特征向量输入到Step5得到的CRF优化模型进行老挝语人名地名实体词识别训练。
2.根据权利要求1所述融合多特征的老挝语人名地名实体识别方法,其特征在于:所述步骤Step2具体步骤如下:
Step2.1:建立BLSTM模型:使用TensorFlow深度学习框架,python程序语言进行BLSTM算法的编写;
Step2.2:设置模型参数:设置迭代次数为10000次,学习率设置为0.1、0.01、0.001三种,通过最后在训练集上体现的准确率,选择合适的学习率;
Step2.3:训练字符级向量:将老挝语词语进行字符切分,输入到BLSTM算法中进行训练。
3.根据权利要求1所述融合多特征的老挝语人名地名实体识别方法,其特征在于:所述步骤Step3具体步骤如下:
Step3.1:老挝语分词:通过老挝语分词工具,通过分词算法计算机会自动将老挝语句子切分成单词;
Step3.2:去除停用词:将老挝语停用词作成一个词典,将分词后的老挝语进行筛选;
Step3.3:训练词向量:首先安装Gensim包,调用Word2vec算法模型,将筛选后的老挝语词语作为输入,Word2vec算法将词语的频率和上下文信息进行训练,最终输出具有了上下文语义特征的词向量。
4.根据权利要求1所述融合多特征的老挝语人名地名实体识别方法,其特征在于:所述步骤Step4具体步骤如下:
Step4.1:安装科学计算模块:通过python安装Numpy科学计数模块,进行特征向量的矩阵运算;
Step4.2:特征向量拼接:将步骤Step2中训练的字符级特征向量矩阵维度设置为固定值,将步骤Step3中训练的具有上下文语义特征的词向量矩阵维度设置的和Step2一致,使用加载的Numpy科学计数模块,进行运算,将两组特征向量进行拼接组合成一组特征向量。
5.根据权利要求1所述融合多特征的老挝语人名地名实体识别方法,其特征在于:所述步骤Step5具体步骤如下:
Step5.1:整理老挝语语言学特征:老挝人名字前面有冠词,老挝语地名前有指示词;
Step5.2:将老挝语语言学特征制定成规则,将规则融合到条件随机场CRF算法中,形成可以对老挝语人名地名实体词的识别的优化的CRF模型。
6.根据权利要求1所述融合多特征的老挝语人名地名实体识别方法,其特征在于:所述步骤Step6具体步骤如下:
Step6.1:识别老挝语人名地名:将Step4中拼接成的完整特征向量作为输入,Step5融合老挝语语言学特征的条件随机场CRF模型作为输出层算法,最后输出老挝语人名地名识别标志。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811531250.2A CN109753650A (zh) | 2018-12-14 | 2018-12-14 | 一种融合多特征的老挝语人名地名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811531250.2A CN109753650A (zh) | 2018-12-14 | 2018-12-14 | 一种融合多特征的老挝语人名地名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109753650A true CN109753650A (zh) | 2019-05-14 |
Family
ID=66403805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811531250.2A Pending CN109753650A (zh) | 2018-12-14 | 2018-12-14 | 一种融合多特征的老挝语人名地名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109753650A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110362821A (zh) * | 2019-06-17 | 2019-10-22 | 昆明理工大学 | 一种基于叠层组合分类器的老挝语基本名词短语识别方法 |
CN110516241A (zh) * | 2019-08-26 | 2019-11-29 | 北京三快在线科技有限公司 | 地理地址解析方法、装置、可读存储介质及电子设备 |
CN111783459A (zh) * | 2020-05-08 | 2020-10-16 | 昆明理工大学 | 一种基于改进Transformer+CRF的老挝语命名实体识别方法 |
CN111832306A (zh) * | 2020-07-09 | 2020-10-27 | 昆明理工大学 | 基于多特征融合的影像诊断报告命名实体识别方法 |
CN113111164A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型接处警文本居住地信息提取方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103309926A (zh) * | 2013-03-12 | 2013-09-18 | 中国科学院声学研究所 | 基于条件随机场的中英文混合命名实体识别方法及系统 |
CN107908614A (zh) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的命名实体识别方法 |
US20180300608A1 (en) * | 2017-04-12 | 2018-10-18 | Yodlee, Inc. | Neural Networks for Information Extraction From Transaction Data |
CN108717409A (zh) * | 2018-05-16 | 2018-10-30 | 联动优势科技有限公司 | 一种序列标注方法及装置 |
-
2018
- 2018-12-14 CN CN201811531250.2A patent/CN109753650A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103309926A (zh) * | 2013-03-12 | 2013-09-18 | 中国科学院声学研究所 | 基于条件随机场的中英文混合命名实体识别方法及系统 |
US20180300608A1 (en) * | 2017-04-12 | 2018-10-18 | Yodlee, Inc. | Neural Networks for Information Extraction From Transaction Data |
CN107908614A (zh) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的命名实体识别方法 |
CN108717409A (zh) * | 2018-05-16 | 2018-10-30 | 联动优势科技有限公司 | 一种序列标注方法及装置 |
Non-Patent Citations (3)
Title |
---|
WANG LING ET.AL: "Finding Function in Form: Compositional Character Models for", 《COMPUTER SCIENCE - COMPUTATION AND LANGUAGE》 * |
买和木提.买买提: "CRF与规则相结合的维吾尔文地名识别研究"", 《中文信息学报》 * |
冯艳红: "基于BLSTM的命名实体识别方法", 《计算机科学》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110362821A (zh) * | 2019-06-17 | 2019-10-22 | 昆明理工大学 | 一种基于叠层组合分类器的老挝语基本名词短语识别方法 |
CN110516241A (zh) * | 2019-08-26 | 2019-11-29 | 北京三快在线科技有限公司 | 地理地址解析方法、装置、可读存储介质及电子设备 |
CN113111164A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型接处警文本居住地信息提取方法和装置 |
CN111783459A (zh) * | 2020-05-08 | 2020-10-16 | 昆明理工大学 | 一种基于改进Transformer+CRF的老挝语命名实体识别方法 |
CN111832306A (zh) * | 2020-07-09 | 2020-10-27 | 昆明理工大学 | 基于多特征融合的影像诊断报告命名实体识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489555B (zh) | 一种结合类词信息的语言模型预训练方法 | |
CN109753650A (zh) | 一种融合多特征的老挝语人名地名实体识别方法 | |
CN112214610B (zh) | 一种基于跨度和知识增强的实体关系联合抽取方法 | |
CN110020438A (zh) | 基于序列识别的企业或组织中文名称实体消歧方法和装置 | |
CN111708882B (zh) | 基于Transformer的中文文本信息缺失的补全方法 | |
CN109408642A (zh) | 一种基于距离监督的领域实体属性关系抽取方法 | |
CN109271506A (zh) | 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法 | |
CN109697232A (zh) | 一种基于深度学习的中文文本情感分析方法 | |
CN110083831A (zh) | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 | |
CN110209822A (zh) | 基于深度学习的学术领域数据相关性预测方法、计算机 | |
CN106875014B (zh) | 基于半监督学习的软件工程知识库的自动化构建实现方法 | |
CN112395393B (zh) | 一种基于多任务多示例的远程监督关系抽取方法 | |
CN112149421A (zh) | 一种基于bert嵌入的软件编程领域实体识别方法 | |
CN107392147A (zh) | 一种基于改进的生成式对抗网络的图像语句转换方法 | |
CN109635288A (zh) | 一种基于深度神经网络的简历抽取方法 | |
CN104239554A (zh) | 跨领域跨类别的新闻评论情绪预测方法 | |
CN108509409A (zh) | 一种自动生成语义相近句子样本的方法 | |
CN110334187A (zh) | 基于迁移学习的缅语情感分析方法及装置 | |
CN110598219A (zh) | 一种面向豆瓣网电影评论的情感分析方法 | |
CN111104510A (zh) | 一种基于词嵌入的文本分类训练样本扩充方法 | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
CN112417888A (zh) | 一种结合BiLSTM-CRF算法与R-BERT算法解析稀疏语义关系的方法 | |
CN111967267B (zh) | 一种基于XLNet的新闻文本地域提取的方法及系统 | |
CN110222338A (zh) | 一种机构名实体识别方法 | |
CN110705272A (zh) | 一种面向汽车发动机故障诊断的命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190514 |