CN114330349A - 一种特定领域命名实体识别方法 - Google Patents

一种特定领域命名实体识别方法 Download PDF

Info

Publication number
CN114330349A
CN114330349A CN202210003814.5A CN202210003814A CN114330349A CN 114330349 A CN114330349 A CN 114330349A CN 202210003814 A CN202210003814 A CN 202210003814A CN 114330349 A CN114330349 A CN 114330349A
Authority
CN
China
Prior art keywords
entity
type
candidate
specific field
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210003814.5A
Other languages
English (en)
Inventor
宋晓
李晓庆
崔勇
周军华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202210003814.5A priority Critical patent/CN114330349A/zh
Publication of CN114330349A publication Critical patent/CN114330349A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种特定领域命名实体识别方法,包括以下步骤:步骤一,获取领域知识库,使用短语挖掘对文本语料进行高质量领域词表构建,补充现有知识库内容;步骤二,采用远程监督,将文本语料对齐领域知识库内容进行实体类型的自动标注;步骤三,构建与训练命名实体识别模型,完成特定领域文本中细粒度命名实体的识别与提取。本发明所公开的方法,基于远程监督获取特定领域标注语料,将命名实体识别任务分为候选实体获取与候选实体类型判断两个阶段,充分利用领域知识库中实体的边界信息与实体的类别信息,弥补了在特定领域上缺乏足够多的标注数据且人工标注成本高的缺点,并且在一定程度上避免因细粒度实体类型数量多所产生的实体识别效果一般的问题,从而提高了命名实体识别的性能。

Description

一种特定领域命名实体识别方法
技术领域
本发明涉及自然语言处理领域,具体涉及一种特定领域命名实体识别方法。
背景技术
命名实体识别(Named Entity Recognition,NER)是自然语言处理领域的基本任务之一,识别文本中具有特定意义实体。在特定领域中,如医疗、军事等,因缺乏大规模的标注数据集完成深度学习模型的训练,很难将其直接应用。
当前针对匮乏资源命名实体识别问题主要采用迁移学习、远程监督方法。迁移学习利用领域相似性,在领域之间进行数据共享和模型共建,利用无监督模式通过降低统计学习的期望误差来对未标记样本进行优化选择,有效减少标注数据的工作量;远程监督利用外部知识库和本体库来补充标注实体,将文本序列与知识库词典中的条目进行匹配,自动为带有命名实体类别的大量原始语料添加标签。以上方法可以较好地解决匮乏资源命名实体识别问题,在特定领域中,远程监督所需的外部知识库相较于迁移学习中相似领域的判定及其标注数据的获取较易进行,但在具有大量实体类型的特定领域文本数据上,现有远程监督模型方法对于类别信息默认为互相独立的去分类,存在命名实体识别效果一般的问题。
本发明所提出的一种特定领域命名实体识别方法,充分利用领域知识库中实体的边界信息与实体的类别信息,采用两阶段方式,将命名实体识别分为候选实体获取与候选实体类型判断,引入线性映射函数和相似度计算,充分发挥实体类别间的层级和语义相关的特点,弥补了在特定领域上缺乏足够多的标注数据且人工标注成本高的缺点,并且在一定程度上避免因细粒度实体类型数量多所产生的命名实体识别效果一般的问题,从而提高了命名实体识别的性能,取得了很好的效果。
发明内容
(1)要解决的技术问题
在实现特定领域的命名实体识别时仍存在以下难点问题:缺乏足够多的标注数据,人工标注的成本很高,需要耗费大量的时间以及精力,实体标注难度大;相较于通用领域的命名实体识别任务中的实体类别,特定领域存在实体类型层次多,实体类型粒度细,实体类型数量多,导致命名实体识别效果一般的问题。
(2)技术方案
为解决以上技术问题,本发明提供了一种特定领域命名实体识别方法,其主要特征在于,包括以下步骤:
步骤一:获取领域知识库,使用短语挖掘对文本语料进行高质量短语词表构建,补充现有特定领域知识库的内容。
步骤二:采用远程监督方法对文本语料进行标注,将领域知识库中实体所对应的类型作为该实体在文本中的类型。
步骤三:构建特定领域细粒度命名实体识别模型,将标注好的文本语料分为训练集、验证集与测试集,对模型进行训练,最后使用训练好的模型获取文本中细粒度实体类型的实体集合获取。
所述特定领域细粒度命名实体识别模型包含两阶段:候选实体获取与候选实体类型判断。候选实体获取阶段获取实体边界信息,从而获取候选实体。主要包含预训练编码层完成文本语料中原始字、词向量形式的转化;双向长短记忆网络完成文本全局上下文特征;逻辑回归分类层完成候选实体边界的判断。
实体类型判断阶段由长短记忆网络和双向长短记忆网络组成的特征表示层完成候选实体及其上下文语义环境的特征获取;线性映射函数和计算公式组成的相似度计算层完成候选实体与实体类型集合间的相似度获取;最后采用递归搜索实现候选实体对应类型的选择与输出。
线性映射函数φM与φL的具体定义为:
Figure BDA0003455793860000031
Figure BDA0003455793860000032
Figure BDA0003455793860000033
相似度计算函数s具体定义为:
Figure BDA0003455793860000034
式中:
Figure BDA0003455793860000035
表示候选实体特征表示向量的实数空间,
Figure BDA0003455793860000036
表示类型标签表示初始向量的实数空间,
Figure BDA0003455793860000037
表示二者嵌入的实数空间。U和V分别是特征表示和类型标签的投影矩阵,fi为第i个候选实体的特征表示,
Figure BDA0003455793860000038
为第i个候选实体所对应类型标签的独热向量编码表示。
(3)有益效果
本发明的上述技术方案充分利用知识库中实体的边界信息与实体的类别信息,解决特定领域命名实体识别任务中缺乏足够多的标注数据,人工标注的成本很高,需要耗费大量时间的问题,挖掘出实体类型之间存在的语义关系,有效地提升了特定领域的命名实体识别效果。
附图说明
图1为本发明的操作流程图。
图2为本发明的网络结构图。
图3为本发明的作战想定命名实体识别模型训练测试流程。
图4为特征表示层的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
(1)参照图1所示,本实施方式提供了一种特定领域命名实体识别方法,其主要步骤如下:
a)对文本进行预处理生成文本语料,基于有限状态机进行英文词串的获取,即合并相邻的英文字母、空格以及符号。最终将以句子为单位的文本信息分离为中文单字和英文词串的形式。
b)基于开源的领域知识库构建知识库,将其整理为二元组形式:实体类型和实体名称。
c)根据文本内容统计获取高频词语,由高到底排序。通过字符串匹配计算出的n-grams的原始频率获取短语集合,集合中与知识库可以完全匹配的字符串作为正样本,剩余的作为负样本。然后结合词性信息进行短语边界的优化,通过给生成短语进行打分,当其满足预先设定的阈值时,加入高质量领域词典。
d)基于远程监督使用知识库中对应的实体类型对语料库中出现的对应实体进行自动标注。在具体标注过程中,只有同时未被知识库词典和高质量领域词典匹配的部分才被标记为非实体。
e)将标注好的特定领域数据集输入命名实体识别模型,训练模型。命名实体识别模型由候选实体获取、实体类型判断两个阶段组成。最后使用训练好的模型进行特定领域中的细粒度命名实体的识别与提取。
(2)参照图2所示,本发明所提出的用于命名实体识别的深度学习模型由嵌入层①、BiLSTM层②、候选实体边界输出层③、特征表示层④、相似度计算层⑤以及命名实体类型输出层⑥组成。
嵌入层①采用GloVe词向量模型以无监督的方式将分离为中文单字和英文词串的句子原始文本转化为向量形式,捕捉词的语义信息。
候选实体边界输出层③的输入首先经过BiLSTM层②,提取全局的上下文特征,然后对于第i个字或词与其前一个字或词之间的关系进行预测,采用以下公式计算得出:
p(yi=N|ui)=σ(WTui)
式中:yi是第i个词和第i-1个词之间的标记,N代表“不相关”,ui为第i个词编码向量,W为sigmoid层的权重参数,两个“不相关”标记之间的字或词共同构成候选实体。
特征表示层④由候选实体及其相关的上下文内容表示共同组成,特征表示层的结构如图4所示。
相似度计算层⑤的输入为第i个候选实体的特征表示与第i个候选实体所对应类型标签t的向量表示,将二者映射到相同维度的空间,为每个标签类型和候选实体特征向量分配一个分数作为它们嵌入的点积,采用以下公式计算得出:
Figure BDA0003455793860000061
Figure BDA0003455793860000062
Figure BDA0003455793860000063
Figure BDA0003455793860000064
式中:
Figure BDA0003455793860000065
表示候选实体特征表示向量的实数空间,
Figure BDA0003455793860000066
表示类型标签表示初始向量的实数空间,
Figure BDA0003455793860000067
表示二者嵌入的实数空间。U和V分别是特征表示和类型标签的投影矩阵,fi为第i个候选实体的特征表示,
Figure BDA0003455793860000068
为第i个候选实体所对应类型标签的独热向量编码表示。
命名实体类型输出层⑥,通过使用获得的候选实体特征表示计算其得分来递归计算子节点中的最佳类型。从根节点出发,采用递归在给定的类型层次中自上而下搜索以获取正确的类型路径,直到子节点到达叶子类型时或相似度得分低于0,搜索过程停止,最终输出实体对应类型。
(3)特定领域命名实体识别模型训练测试流程如图3所示,抽取句中具有层级结构实体类型的命名实体,基于深度学习算法采用该模型识别句子中的重要实体。
结合实施例来验证本发明有效性和正确性,数据来源于网络爬虫所获取的公开作战想定。实验中,对标注的作战想定数据集,划分成三个数据集:训练集、测试集和验证集,其中在训练集上训练模型,在验证集上调节超参数使得模型泛化能力最强,最终在测试集上进行测试,得到的误差作为泛化误差的近似。
本实验采用F1值对实体识别效果进行评价,F1是精确率P和召回率R的调和平均,F1分数同时考虑精确率和召回率,让两者取得平衡,计算公式如下:
Figure BDA0003455793860000071
Figure BDA0003455793860000072
Figure BDA0003455793860000073
式中:Tp为模型识别正确的实体个数,Fp为模型识别到的不相关实体个数、Fn为模型没有检测到的相关实体个数。
为了验证本发明的有效性和正确性,将验证结果与业界先进方法进行比较,比较结果如表1所示。
表1作战想定命名实体识别结果与比较
Figure BDA0003455793860000081
由以上的实施例可以看出,本发明提出的一种特定领域命名实体识别方法相比于业界先进方法具有更高的F1,能充分利用语料中实体的标签语义关系,解决因实体类型过多而导致的命名实体识别效果差问题,挖掘出实体类别间所存在得层级、语义相关的关系以及每个实体类别的重要性,有效地提高了作战想定命名实体识别任务的识别效果。

Claims (2)

1.一种特定领域命名实体识别方法,主要包括以下步骤:
(1)获取领域知识库,使用短语挖掘对文本语料进行高质量短语词表构建,补充现有特定领域知识库的内容。
(2)采用远程监督方法对文本语料进行标注,将领域知识库中实体所对应的类型作为该实体在文本中的类型。
(3)构建特定领域细粒度命名实体识别模型,将标注好的文本语料分为训练集、验证集与测试集,对模型进行训练,最后使用训练好的模型获取文本中细粒度实体类型的实体集合获取。
2.根据权利要求1所述的一种特定领域命名实体识别模型,其特征在于:
模型分为两个阶段,分别为候选实体获取与实体类型判断,通过引入命名实体类型标签的语义相关性,完成特定领域中细粒度命名实体类型的筛选。
候选实体获取阶段获取实体边界信息,从而获取候选实体。主要包含预训练编码层完成文本语料中原始字、词向量形式的转化;双向长短记忆网络完成文本全局上下文特征;逻辑回归分类层完成候选实体边界的判断。
实体类型判断阶段由长短记忆网络和双向长短记忆网络组成的特征表示层完成候选实体及其上下文语义环境的特征获取;线性映射函数和计算公式组成的相似度计算层完成候选实体与实体类型集合间的相似度获取;最后采用递归搜索实现候选实体对应类型的选择与输出。
线性映射函数φM与φL的具体定义为:
Figure FDA0003455793850000021
Figure FDA0003455793850000022
Figure FDA0003455793850000023
相似度计算函数s具体定义为:
Figure FDA0003455793850000024
式中:
Figure FDA0003455793850000025
表示候选实体特征表示向量的实数空间,
Figure FDA0003455793850000026
表示类型标签表示初始向量的实数空间,
Figure FDA0003455793850000027
表示二者嵌入的实数空间。U和V分别是特征表示和类型标签的投影矩阵,fi为第i个候选实体的特征表示,
Figure FDA0003455793850000028
为第i个候选实体所对应类型标签的独热向量编码表示。
CN202210003814.5A 2022-01-05 2022-01-05 一种特定领域命名实体识别方法 Pending CN114330349A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210003814.5A CN114330349A (zh) 2022-01-05 2022-01-05 一种特定领域命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210003814.5A CN114330349A (zh) 2022-01-05 2022-01-05 一种特定领域命名实体识别方法

Publications (1)

Publication Number Publication Date
CN114330349A true CN114330349A (zh) 2022-04-12

Family

ID=81023337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210003814.5A Pending CN114330349A (zh) 2022-01-05 2022-01-05 一种特定领域命名实体识别方法

Country Status (1)

Country Link
CN (1) CN114330349A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115688788A (zh) * 2022-11-09 2023-02-03 北京至臻云智能科技有限公司 用于审计领域的命名实体识别模型的训练方法及相关设备
CN117195893A (zh) * 2022-05-26 2023-12-08 中国科学院国家空间科学中心 一种基于卫星领域语料库的命名实体识别模型及识别方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103309926A (zh) * 2013-03-12 2013-09-18 中国科学院声学研究所 基于条件随机场的中英文混合命名实体识别方法及系统
CN108460013A (zh) * 2018-01-30 2018-08-28 大连理工大学 一种基于细粒度词表示模型的序列标注模型
CN109359291A (zh) * 2018-08-28 2019-02-19 昆明理工大学 一种命名实体识别方法
CN110032737A (zh) * 2019-04-10 2019-07-19 贵州大学 一种基于神经网络的边界组合命名实体识别方法
CN111680511A (zh) * 2020-04-21 2020-09-18 华东师范大学 一种多神经网络协作的军事领域命名实体识别方法
CN112800764A (zh) * 2020-12-31 2021-05-14 江苏网进科技股份有限公司 一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法
CN112883732A (zh) * 2020-11-26 2021-06-01 中国电子科技网络信息安全有限公司 基于关联记忆网络的中文细粒度命名实体识别方法及装置
CN112949308A (zh) * 2021-02-25 2021-06-11 武汉大学 基于功能结构的中文电子病历命名实体识别方法及系统
CN113221539A (zh) * 2021-07-08 2021-08-06 华东交通大学 一种集成句法信息的嵌套命名实体识别方法与系统
CN113886602A (zh) * 2021-10-19 2022-01-04 四川大学 一种基于多粒度认知的领域知识库实体识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103309926A (zh) * 2013-03-12 2013-09-18 中国科学院声学研究所 基于条件随机场的中英文混合命名实体识别方法及系统
CN108460013A (zh) * 2018-01-30 2018-08-28 大连理工大学 一种基于细粒度词表示模型的序列标注模型
CN109359291A (zh) * 2018-08-28 2019-02-19 昆明理工大学 一种命名实体识别方法
CN110032737A (zh) * 2019-04-10 2019-07-19 贵州大学 一种基于神经网络的边界组合命名实体识别方法
CN111680511A (zh) * 2020-04-21 2020-09-18 华东师范大学 一种多神经网络协作的军事领域命名实体识别方法
CN112883732A (zh) * 2020-11-26 2021-06-01 中国电子科技网络信息安全有限公司 基于关联记忆网络的中文细粒度命名实体识别方法及装置
CN112800764A (zh) * 2020-12-31 2021-05-14 江苏网进科技股份有限公司 一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法
CN112949308A (zh) * 2021-02-25 2021-06-11 武汉大学 基于功能结构的中文电子病历命名实体识别方法及系统
CN113221539A (zh) * 2021-07-08 2021-08-06 华东交通大学 一种集成句法信息的嵌套命名实体识别方法与系统
CN113886602A (zh) * 2021-10-19 2022-01-04 四川大学 一种基于多粒度认知的领域知识库实体识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
冯建周;马祥聪;: "基于迁移学习的细粒度实体分类方法的研究", 自动化学报, no. 08 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117195893A (zh) * 2022-05-26 2023-12-08 中国科学院国家空间科学中心 一种基于卫星领域语料库的命名实体识别模型及识别方法
CN115688788A (zh) * 2022-11-09 2023-02-03 北京至臻云智能科技有限公司 用于审计领域的命名实体识别模型的训练方法及相关设备

Similar Documents

Publication Publication Date Title
CN109902145B (zh) 一种基于注意力机制的实体关系联合抽取方法和系统
CN108959252B (zh) 基于深度学习的半监督中文命名实体识别方法
CN110019839B (zh) 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN109271529B (zh) 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN110502644B (zh) 一种领域层级词典挖掘构建的主动学习方法
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN112101028A (zh) 一种多特征双向门控领域专家实体抽取方法及系统
CN111353306B (zh) 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
CN106537370A (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统
CN110348017B (zh) 一种文本实体检测方法、系统及相关组件
CN109062904B (zh) 逻辑谓词提取方法和装置
CN109960728A (zh) 一种开放域会议信息命名实体识别方法及系统
CN111858896B (zh) 一种基于深度学习的知识库问答方法
CN114818717B (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN114330349A (zh) 一种特定领域命名实体识别方法
CN113377897A (zh) 基于深度对抗学习的多语言医疗术语规范标准化系统及方法
CN111444704B (zh) 基于深度神经网络的网络安全关键词抽取方法
CN116127090B (zh) 基于融合和半监督信息抽取的航空系统知识图谱构建方法
CN114970529A (zh) 基于机器学习的命名实体识别(ner)机制的弱监督和可解释训练
CN111191464A (zh) 基于组合距离的语义相似度计算方法
CN114238653A (zh) 一种编程教育知识图谱构建、补全与智能问答的方法
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
CN115759092A (zh) 一种基于albert的网络威胁情报命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination