CN109145286A - 基于BiLSTM-CRF神经网络模型并融合越南语语言特征的名词短语识别方法 - Google Patents

基于BiLSTM-CRF神经网络模型并融合越南语语言特征的名词短语识别方法 Download PDF

Info

Publication number
CN109145286A
CN109145286A CN201810707821.7A CN201810707821A CN109145286A CN 109145286 A CN109145286 A CN 109145286A CN 201810707821 A CN201810707821 A CN 201810707821A CN 109145286 A CN109145286 A CN 109145286A
Authority
CN
China
Prior art keywords
corpus
noun
noun phrase
vietnamese
bilstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810707821.7A
Other languages
English (en)
Inventor
郭剑毅
赵晨
余正涛
毛存礼
陈玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810707821.7A priority Critical patent/CN109145286A/zh
Publication of CN109145286A publication Critical patent/CN109145286A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于BiLSTM‑CRF神经网络模型并融合越南语语言特征的名词短语识别方法,属于自然语言处理技术领域。本发明先收集已有语料,并对现有的语料库进行了预处理和扩展,构建名词短语语料库;根据构建的名词短语语料库,经过人工统计分析,得到名词短语的若干种形式,制定出若干种约束规则;构建BiLSTM‑CRF模型,使用训练语料对模型进行训练,用于越南语名词短语识别;在构建的BiLSTM‑CRF模型输出层加入制定的约束规则,获得最终的识别结果。本发明对越南语名词短语实现了有效的识别,提升实体识别、搜索引擎等应用的准确率。

Description

基于BiLSTM-CRF神经网络模型并融合越南语语言特征的名词 短语识别方法
技术领域
本发明涉及一种基于BiLSTM-CRF神经网络模型并融合越南语语言特征的名词短语识别方法,属于自然语言处理技术领域。
背景技术
名词短语(Noun Phrase,NP)识别是自然语言处理(Natural languageprocessing,简称“NLP”)过程中一项基础且重要的任务。名词短语在句子中大量存在。一般认为,自然语言中语义的基本单位是短语,句子中的实体和概念通常可由名词短语来描述,其捆绑了一个相对完整的语义信息,具有丰富的句法功能,主要承担主语和宾语的重要句法角色。因此,名词短语识别是许多应用研究都具有重要的支撑,例如关键词识别、命名实体识别、自动文摘、语义分析、机器翻译、问答系统等等。
发明内容
本发明提供了一种基于BiLSTM-CRF神经网络模型并融合越南语语言特征的名词短语识别方法,以用于解决越南语名词短语的识别问题,为后续许多任务许多应用研究起到了支撑作用。
本发明的技术方案是:一种基于BiLSTM-CRF神经网络模型并融合越南语语言特征的名词短语识别方法,所述方法的具体步骤如下:
Step1、收集已有语料,并对现有的语料库进行了预处理和扩展,构建名词短语语料库;
Step2、根据构建的名词短语语料库,经过人工统计分析,得到名词短语的若干种形式,制定出若干种约束规则;
Step3、构建BiLSTM-CRF模型,使用训练语料对模型进行训练,用于越南语名词短语识别;
Step4、在构建的BiLSTM-CRF模型输出层加入制定的约束规则,获得最终的识别结果。
所述步骤Step1中,构建名词短语语料库的具体步骤为:
Step1.1、获取越南语语料,获取语料有两个途径,1、从VLSP(越南语自然语言处理网站)网站得到部分组块语料,通过人工筛选得到名词短语语料;2、从越南语网站获取的语料经人工处理得到一部分名词短语语料;
Step1.2、构建名词短语语料库,通过Step1得到70万词条越南语名词短语语料,这部分语料有三种用途,1、制定约束规则;2、训练语料;3、测试语料。
所述步骤Step1.1中,获取越南语名词短语语料的具体步骤为:
Step1.1.1、由于VLSP网站的语料库中包含了组块标识符,包括动词、形容词和其他8种类型,这使得语料库不直接用于名词短语识别。需对语料库进行预处理,包括手工校对、标记和重复删除等数据清理任务;
从Step1.1.1中获得的语料是约180000个单词的名词短语语料库。它包含名词短语(由B-NP、i-NP、总语料库的80%)和非名词短语(以O表示),占总语料库的 20%;
Step1.1.2、第二个获取语料的途径是从越南语网站获取越南语文章,通过CRFS模型识别,然后通过越南专家校对,形成越南名词短语语料库;
Step1.1.3、上述所有语料的保存文本格式为UTF-8。
所述步骤Step2中,制定若干种约束规则的具体步骤为:
Step2.1、将名词短语语料库中语料,通过去重、去杂操作,得到单一的越南语名词短语表,在出现的名词短语列表中,经过人工统计分析,得到最常的若干种名词短语组合形式;
Step2.2、然后根据统计分析的若干种名词短语组合形式,制定出若干种约束规则;
获取越南语名词短语的组合约束规则包括:名词+名词、名词+连词+名词、形容词+副词+形容词、形容词+名词、形容词+数字+名词、名词+动词、名词+代词、副词+连词+形容词、数字+名词、代词+连词+代词共10种组合形式。如表1所示:
表1制定约束规则列表
本发明的有益效果是:
1、本发明的融合BiLSTM-CRF的神经网络模型和越南语语言特征的越南语名词短语识别方法,对越南语的名词短语的识别得到了较好的识别效果,特别是使用了 BiLSTM-CRF模型对越南语名词短语进行识别,而且做了大量的实验前准备工作,提出的10种名词短语组合规则并将其与BiLSTM-CRF模型融合,最终通过本发明提出的实验方法,能对越南语名词短语进行有效的识别;
2、本发明的融合BiLSTM-CRF的神经网络模型和越南语语言特征的越南语名词短语识别方法,能对越南语名词短语进行有效的识别,提升实体识别、搜索引擎等应用的准确率,同时能提高越南语上层的词法分析、句法分析、语义分析以及机器翻译等应用效果。
附图说明
图1为本发明中的流程图。
具体实施方式
实施例1:如图1所示,一种基于BiLSTM-CRF神经网络模型并融合越南语语言特征的名词短语识别方法,所述方法的具体步骤如下:
Step1、收集已有语料,并对现有的语料库进行了预处理和扩展,构建名词短语语料库;
Step2、根据构建的名词短语语料库,经过人工统计分析,得到名词短语的若干种形式,制定出若干种约束规则;
Step3、构建BiLSTM-CRF模型,使用训练语料对模型进行训练,用于越南语名词短语识别;
Step4、在构建的BiLSTM-CRF模型输出层加入制定的约束规则,获得最终的识别结果。
进一步的,所述步骤Step1中,构建名词短语语料库的具体步骤为:
Step1.1、获取越南语语料,获取语料有两个途径,1、从VLSP(越南语自然语言处理网站)网站得到部分组块语料,通过人工筛选得到名词短语语料;2、从越南语网站获取的语料经人工处理得到一部分名词短语语料;
Step1.2、构建名词短语语料库,通过Step1得到70万词条越南语名词短语语料,这部分语料有三种用途,1、制定约束规则;2、训练语料;3、测试语料。
进一步的,所述步骤Step1.1中,获取越南语名词短语语料的具体步骤为:
Step1.1.1、由于VLSP网站的语料库中包含了组块标识符,包括动词、形容词和其他8种类型,这使得语料库不直接用于名词短语识别。需对语料库进行预处理,包括手工校对、标记和重复删除等数据清理任务;
从Step1.1.1中获得的语料是约180000个单词的名词短语语料库。它包含名词短语(由B-NP、i-NP、总语料库的80%)和非名词短语(以O表示),占总语料库的 20%;
Step1.1.2、第二个获取语料的途径是从越南语网站获取越南语文章,通过CRFS模型识别,然后通过越南专家校对,形成越南名词短语语料库;
Step1.1.3、上述所有语料的保存文本格式为UTF-8。
进一步的,所述步骤Step2中,制定若干种约束规则的具体步骤为:
Step2.1、将名词短语语料库中语料,通过去重、去杂操作,得到单一的越南语名词短语表,在出现的名词短语列表中,经过人工统计分析,得到最常的若干种名词短语组合形式;
Step2.2、然后根据统计分析的若干种名词短语组合形式,制定出若干种约束规则;
获取越南语名词短语的组合约束规则包括:名词+名词、名词+连词+名词、形容词+副词+形容词、形容词+名词、形容词+数字+名词、名词+动词、名词+代词、副词+连词+形容词、数字+名词、代词+连词+代词共10种组合形式。
从名词短语语料库中取出名词短语测试语料;这些待识别的名词短语最好是没有包含在训练语料当中,这样为了测试识别模型的正确率,本发明将语料中80%用于模型的训练,20%用于模型的测试;
本发明主要从三个方面来评价本次实验的效果:正确率(Precision,简称P)、召回率(Recall,简称R)、F值:
为了验证所提出的越南名词短语识别模型的性能,设计了下面三组实验来测试。
将语料库分为五个部分,选择其中一个作为测试语料库,并使用剩余语料库作为训练语料库。然后进行五组实验。实验结果如下:
表2五倍交叉实验(%)
测试语料 P R F
第一组语料 87.89 88.74 88.31
第二组语料 88.43 88.56 88.49
第二组语料 88.26 89.01 88.63
第二组语料 87.68 88.87 88.27
第二组语料 88.14 88.46 88.30
平均值 88.08 88.73 88.40
从表2中可以看出,该方法的最高精度可达88.43%,平均值为88.08%。该方法的最高召回率可达89.01%,平均值为88.73%。该方法的精度最高可达88.63%,平均值为88.40%。
使用相同的语料库,实验所提出的方法,BiLSTM-CRF,CRF,ME模型。实践证明,该方法更适合越南语名词短语识别。实验结果如下:
表3各种模型的对比实验(%)
模型 P R F
ME 79.88 80.07 79.97
CRF 82.72 82.62 82.67
BiLSTM-CRF 86.34 87.11 86.72
本发明融合后的方法 88.12 88.74 88.43
从表3中可以看出,与其他三种模型相比,所提出的基于BiLSTM-CRF神经网络模型并融合越南语语言特征的名词短语识别方法的P、R和F是最高的,所提出的方法更适合越南语名词短语识别。由于所提出的方法比BiLSTM-CRF的结果更好,增加了约束条件,提高了名词短语识别的结果。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (4)

1.基于BiLSTM-CRF神经网络模型并融合越南语语言特征的名词短语识别方法,其特征在于:所述方法的具体步骤如下:
Step1、收集已有语料,并对现有的语料库进行了预处理和扩展,构建名词短语语料库;
Step2、根据构建的名词短语语料库,经过人工统计分析,得到名词短语的若干种形式,制定出若干种约束规则;
Step3、构建BiLSTM-CRF模型,使用训练语料对模型进行训练,用于越南语名词短语识别;
Step4、在构建的BiLSTM-CRF模型输出层加入制定的约束规则,获得最终的识别结果。
2.根据权利要求1所述的基于BiLSTM-CRF神经网络模型并融合越南语语言特征的名词短语识别方法,其特征在于:所述步骤Step1中,构建名词短语语料库的具体步骤为:
Step1.1、获取越南语语料,获取语料有两个途径,1、从VLSP越南语自然语言处理网站得到部分组块语料,通过人工筛选得到名词短语语料;2、从越南语网站获取的语料经人工处理得到一部分名词短语语料;
Step1.2、构建名词短语语料库,通过Step1得到70万词条越南语名词短语语料,用于训练语料、测试语料或制定约束规则。
3.根据权利要求2所述的基于BiLSTM-CRF神经网络模型并融合越南语语言特征的名词短语识别方法,其特征在于:所述步骤Step1.1中,获取越南语名词短语语料的具体步骤为:
Step1.1.1、由于VLSP网站的语料库中包含了组块标识符,需对语料库进行预处理,包括手工校对、标记和重复删除清理任务;
Step1.1.2、第二个获取语料的途径是从越南语网站获取越南语文章,通过CRFS模型识别,然后通过越南专家校对,形成越南名词短语语料库;
Step1.1.3、上述所有语料的保存文本格式为UTF-8。
4.根据权利要求1-3任一项所述的基于BiLSTM-CRF神经网络模型并融合越南语语言特征的名词短语识别方法,其特征在于:所述步骤Step2中,制定若干种约束规则的具体步骤为:
Step2.1、将名词短语语料库中语料,通过去重、去杂操作,得到单一的越南语名词短语表,在出现的名词短语列表中,经过人工统计分析,得到最常的若干种名词短语组合形式;
Step2.2、然后根据统计分析的若干种名词短语组合形式,制定出若干种约束规则;
获取越南语名词短语的组合约束规则包括:名词+名词、名词+连词+名词、形容词+副词+形容词、形容词+名词、形容词+数字+名词、名词+动词、名词+代词、副词+连词+形容词、数字+名词、代词+连词+代词共10种组合形式。
CN201810707821.7A 2018-07-02 2018-07-02 基于BiLSTM-CRF神经网络模型并融合越南语语言特征的名词短语识别方法 Pending CN109145286A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810707821.7A CN109145286A (zh) 2018-07-02 2018-07-02 基于BiLSTM-CRF神经网络模型并融合越南语语言特征的名词短语识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810707821.7A CN109145286A (zh) 2018-07-02 2018-07-02 基于BiLSTM-CRF神经网络模型并融合越南语语言特征的名词短语识别方法

Publications (1)

Publication Number Publication Date
CN109145286A true CN109145286A (zh) 2019-01-04

Family

ID=64802653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810707821.7A Pending CN109145286A (zh) 2018-07-02 2018-07-02 基于BiLSTM-CRF神经网络模型并融合越南语语言特征的名词短语识别方法

Country Status (1)

Country Link
CN (1) CN109145286A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096713A (zh) * 2019-03-21 2019-08-06 昆明理工大学 一种基于SVM-BiLSTM-CRF的老挝语机构名称识别方法
CN110334213A (zh) * 2019-07-09 2019-10-15 昆明理工大学 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法
CN112084783A (zh) * 2020-09-24 2020-12-15 中国民航大学 基于民航不文明旅客的实体识别方法及系统
CN112651241A (zh) * 2021-01-08 2021-04-13 昆明理工大学 一种基于半监督学习的汉语并列结构自动识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101013421A (zh) * 2007-02-02 2007-08-08 清华大学 基于规则的汉语基本块自动分析方法
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106933809A (zh) * 2017-03-27 2017-07-07 三角兽(北京)科技有限公司 信息处理装置及信息处理方法
CN107622050A (zh) * 2017-09-14 2018-01-23 武汉烽火普天信息技术有限公司 基于Bi‑LSTM和CRF的文本序列标注系统及方法
CN107797994A (zh) * 2017-09-26 2018-03-13 昆明理工大学 基于约束条件随机场的越南语名词组块识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101013421A (zh) * 2007-02-02 2007-08-08 清华大学 基于规则的汉语基本块自动分析方法
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106933809A (zh) * 2017-03-27 2017-07-07 三角兽(北京)科技有限公司 信息处理装置及信息处理方法
CN107622050A (zh) * 2017-09-14 2018-01-23 武汉烽火普天信息技术有限公司 基于Bi‑LSTM和CRF的文本序列标注系统及方法
CN107797994A (zh) * 2017-09-26 2018-03-13 昆明理工大学 基于约束条件随机场的越南语名词组块识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
THAI-HOANG PHAM ET AL: "End-to-end Recurrent Neural Network Models for Vietnamese Named Entity Recognition: Word-level vs. Character-level", 《ARXIV PREPRINT ARXIV》 *
熊明明 等: "基于CRFs和歧义模型的越南语分词", 《数据采集与处理》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096713A (zh) * 2019-03-21 2019-08-06 昆明理工大学 一种基于SVM-BiLSTM-CRF的老挝语机构名称识别方法
CN110334213A (zh) * 2019-07-09 2019-10-15 昆明理工大学 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法
CN110334213B (zh) * 2019-07-09 2021-05-11 昆明理工大学 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法
CN112084783A (zh) * 2020-09-24 2020-12-15 中国民航大学 基于民航不文明旅客的实体识别方法及系统
CN112084783B (zh) * 2020-09-24 2022-04-12 中国民航大学 基于民航不文明旅客的实体识别方法及系统
CN112651241A (zh) * 2021-01-08 2021-04-13 昆明理工大学 一种基于半监督学习的汉语并列结构自动识别方法

Similar Documents

Publication Publication Date Title
CN109145286A (zh) 基于BiLSTM-CRF神经网络模型并融合越南语语言特征的名词短语识别方法
Hancke et al. Readability classification for German using lexical, syntactic, and morphological features
CN106844658A (zh) 一种中文文本知识图谱自动构建方法及系统
CN109344236A (zh) 一种基于多种特征的问题相似度计算方法
CN105975458B (zh) 一种基于细粒度依存关系的中文长句相似度计算方法
CN101201820B (zh) 一种双语语料库过滤方法及系统
DE112013005742T5 (de) Absichtsabschätzungsvorrichtung und Absichtsabschätzungsverfahren
CN108509409A (zh) 一种自动生成语义相近句子样本的方法
CN101251862A (zh) 一种基于内容的问题自动分类方法及其系统
CN107908712A (zh) 基于术语提取的跨语言信息匹配方法
CN111930895B (zh) 基于mrc的文档数据检索方法、装置、设备及存储介质
CN110298036A (zh) 一种基于词性增量迭代的在线医疗文本症状识别方法
CN106547924A (zh) 文本信息的情感分析方法及装置
CN107797994A (zh) 基于约束条件随机场的越南语名词组块识别方法
CN109033166A (zh) 一种人物属性抽取训练数据集构建方法
CN113157860B (zh) 一种基于小规模数据的电力设备检修知识图谱构建方法
CN106202039A (zh) 基于条件随机场的越南语组合词消歧方法
CN106547741A (zh) 一种基于搭配的汉语文本自动校对方法
CN103336803B (zh) 一种嵌名春联的计算机生成方法
CN107894977A (zh) 结合兼类词词性消歧模型和字典的越南语词性标记方法
CN106126501B (zh) 一种基于依存约束和知识的名词词义消歧方法和装置
CN110019556A (zh) 一种话题新闻获取方法、装置及其设备
Schottmüller et al. Issues in translating verb-particle constructions from german to english
CN109783648B (zh) 一种利用asr识别结果改进asr语言模型的方法
Taji et al. The columbia university-new york university abu dhabi sigmorphon 2016 morphological reinflection shared task submission

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Yu Zhengtao

Inventor after: Zhao Chen

Inventor after: Guo Jianyi

Inventor after: Mao Cunli

Inventor after: Chen Wei

Inventor before: Guo Jianyi

Inventor before: Zhao Chen

Inventor before: Yu Zhengtao

Inventor before: Mao Cunli

Inventor before: Chen Wei

CB03 Change of inventor or designer information
RJ01 Rejection of invention patent application after publication

Application publication date: 20190104

RJ01 Rejection of invention patent application after publication