CN112883732A - 基于关联记忆网络的中文细粒度命名实体识别方法及装置 - Google Patents
基于关联记忆网络的中文细粒度命名实体识别方法及装置 Download PDFInfo
- Publication number
- CN112883732A CN112883732A CN202011344221.2A CN202011344221A CN112883732A CN 112883732 A CN112883732 A CN 112883732A CN 202011344221 A CN202011344221 A CN 202011344221A CN 112883732 A CN112883732 A CN 112883732A
- Authority
- CN
- China
- Prior art keywords
- sentence
- memory
- sentences
- input
- embedding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于关联记忆网络的中文细粒度命名实体识别方法及装置,包括输入层进行记忆句子的选择,计算输入句子和训练集中句子的距离,将训练集中与输入句子距离最近的几个句子作为记忆句子;嵌入层对输入句子和记忆句子中的字符进行上下文编码,并将记忆句子的实体标签转换为标签序列,进行标签嵌入;关联记忆网络计算输入句子中每个字符和记忆句子中每个字符的注意力矩阵,并与记忆句子对应的标签嵌入相乘,将标签信息融入序列表示中;多头自注意层、条件随机场层和输出层。本发明对融入了标签信息的字符表示进行重新编码,增加了实体识别的效果;实验结果表明,本发明的模型在细粒度命名实体识别任务中取得了更好的效果。
Description
技术领域
本发明涉及自然语言处理领域,更为具体的,涉及一种基于关联记忆 网络的中文细粒度命名实体识别方法及装置。
背景技术
细粒度命名实体识别是对文本中的实体进行定位,并将其分类至预定 义的细粒度类别中;命名实体识别是自然语言处理中的信息抽取任务之一, 其目的是对文本中特定类别的实体进行定位和分类。大多数命名实体识别 任务中只识别人名、组织、地点等实体类别,识别的实体类别少,并且类 别划分的比较宽泛;然而,细粒度命名实体识别更符合现实世界的知识体 系,在一些常见类别的基础上做了近一步的类别划分,需要识别的实体种类远多于一般的命名实体识别,这样从文本中抽取的实体就拥有了一个更 详细的定义,对下游的知识图谱的构建和问答任务提供更有力的支撑。
在细粒度命名实体识别中,更细粒度的划分会造成各实体类别在语义 上呈现出更紧密的距离;模型对语义相近类别的实体进行分类时,容易发 生混淆,这意味着细粒度实体类别的区分更具有挑战性。目前,中文公开 的高质量细粒度命名实体识别的数据集很少,CLUENER2020数据集包含 10种不同的实体类别,并对一些常见类别进行了细粒度的划分,如从“地点” 中分离出来了“景点”,从“组织”中分离出了“政府”和“公司”,这就造成“地点”和“景点”之间,“组织”、“政府”和“公司”之间的混淆程度较高;同时存 在同一实体在不同语境下属于不同类别的情况,如“游戏”可以是一些“书籍” 和“电影”的改编。
如表1所示,实体“《黑暗之塔》”在第一个句子中属于“游戏”类别,在 第二和第三个句子中属于“书籍”。在这种情况下,对实体类别的区分需要 结合上下文语境,同时也给“游戏”、“书籍”和“电影”实体类别之间的区分造 成混淆。Xu等人使用bilstm-crf和预训练语言模型在该数据集上进行实验, 相同的模型在其他数据集上的f1值可以达到95,然而在该数据集上最好的 效果只能达到80左右,这是因为细粒度数据集的句子中经常存在多个类别 的实体,模型在预测时会出现一些实体类别的丢失,同时模型对一些类别 的区分能力也存在一定的限制,导致细粒度命名实体识别任务更具有挑战 性。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于关联记忆网络 的中文细粒度命名实体识别方法及装置,解决了现有细粒度命名实体识别 方案中存在的不足。
本发明的目的是通过以下方案实现的:
基于关联记忆网络的中文细粒度命名实体识别方法,其特征在于,包 括步骤:
S1,给定输入句子S,计算输入句子S和训练集中句子的距离,将训练 集中与输入句子S距离最近的几个句子作为记忆句子;
S2,对输入句子S和记忆句子中的字符进行上下文编码,并将记忆句子 的实体标签转换为标签序列,进行标签嵌入;
S3,通过关联记忆网络计算输入句子S中每个字符和记忆句子中每个字 符的注意力矩阵,并与记忆句子对应的标签嵌入相乘,将标签信息融入序 列表示中;
S4,通过多头自注意机制结合句子任意位置之间的相互关注,对融入 了标签信息的序列表示进行重新编码;
S5,通过条件随机场学习各实体标签之间的规则,再使用维特比算法 输出概率最高的标签序列。
进一步地,包括用于构建基于关联记忆网络的中文细粒度命名实体识 别模型的程序和运行该程序的可读存储介质;所述运行该程序的可读存储 介质包括输入层模块、嵌入层模块、关联记忆网络模块、多头自注意层模 块、条件随机场层模块和输出层模块;
所述输入层模块用于进行记忆句子的选择,计算输入句子和训练集中 句子的距离,将训练集中与输入句子距离最近的几个句子作为记忆句子;
所述嵌入层模块对输入句子和记忆句子中的字符进行上下文编码,并 将记忆句子的实体标签转换为标签序列,进行标签嵌入;
所述关联记忆网络模块计算输入句子中每个字符和记忆句子中每个字 符的注意力矩阵,并与记忆句子对应的标签嵌入相乘,将标签信息融入序 列表示中;
所述多头自注意层模块结合句子任意位置之间的相互关注,对融入了 标签信息的序列表示进行重新编码;
所述条件随机场层模块学习各实体标签之间的规则;
所述输出层模块使用维特比算法输出概率最高的标签序列。
进一步地,所述输入层模块包括输入句子S、句子S在训练集中对应的n 个记忆句子和所述n个记忆句子对应的标签序列;
所述输入层模块通过计算两个句子词性序列编辑距离的方法计算句子 的距离,其包括通过计算句子S和训练集中所有句子的距离,选择前n个与 句子S距离最近的句子和这n个句子对应的标签序列存入记忆单元中。
进一步地,所述输入层模块计算句子的距离还包括通过计算实体类别 距离的方法实现,其包括先通过文本多标签预测模型预测句子中可能包含 的实体类别;然后将训练集中与输入句子包含的实体类别最相近的句子存 储在记忆单元中。
进一步地,所述嵌入层模块包括使用预训练语言模型对句子中的字符 进行上下文嵌入和对记忆句子的标签序列进行标签嵌入两部分,实现将句 子的字符映射到同一个语义空间中。
进一步地,所述使用预训练语言模型对句子中的字符进行上下文嵌入 包括通过预训练语言模型分别对所述输入句子S和对应的所述n个记忆句子 进行上下文嵌入,捕获每个字符在给定句子中的上下文信息,得到所述输 入句子S的嵌入向量表示和对应的所述n个 记忆句子的嵌入向量表示
其中,i为输入句子S第i个位置的下标,j为第j个记忆句子的下标, x为句子中的字符序列,ls为输入句子的长度,lj为第j个记忆句子的长度, xi为输入句子的第i个字符,xj,k为第j个记忆句子的第k个字符。
进一步地,所述对记忆句子的标签序列进行标签嵌入包括通过预训练 的词向量对训练集中的各类实体进行词嵌入,如果出现未登录的实体则进 行字符嵌入,词嵌入和字符嵌入的维度皆为300维;将各类实体嵌入表示 的平均数作为标签嵌入矩阵的初始化权重,采用BIOS的形式对实体进行标 记,将4位onehot向量拼接在各个实体标签嵌入的尾部,得到维度Rl为304 维的标签嵌入。
进一步地,所述关联记忆网络包括输入句子和记忆句子之间的注意力 计算以及标签序列的融入和合并两部分;通过计算输入句子和记忆句子之 间的注意力,实现捕获输入句子中的每个字符对记忆句子中每个字符在实 体类别方面的相似度。
进一步地,所述输入句子和记忆句子之间的注意力计算包括通过公式计算输入句子S的嵌入向量表示s′中每个字符和 记忆句子的嵌入向量表示a′j中每个字符的相似度,得到n个ls×lj的注意力矩 阵再通过公式对注意力矩阵进 行归一化,得到归一化后的矩阵Mj,其中
进一步地,所述标签序列的融入和合并包括将归一化后的矩阵Mj与记 忆句子对应的标签嵌入序列Lj相乘得到融入了标签信息的序列L′j;将n个融 入了标签信息的序列L′j进行平均并与输入句子S的嵌入向量s′拼接得到最后 的输入句子表示e。
本发明的有益效果是:
本发明解决了现有细粒度命名实体识别方案中存在的不足,取得 了更好的效果;本发明充分利用了预训练语言模型捕获了句子字符的 上下文信息,同时利用关联记忆网络,使字符的上下文信息接近于实 体类别的标签信息,并将类别的标签信息融入到序列的字符表示中, 最后利用多头自注意网络高效的计算了句子任意位置间的关注度,对 融入了标签信息的字符表示进行重新编码,增加了实体识别的效果; 实验结果表明,本发明的模型在细粒度命名实体识别任务中取得了更 好的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对 实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地, 下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员 来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的 附图。
图1为本发明装置中模型的整体框架图;
图2为标签嵌入形式示意图;
图3为关联记忆网络中各层向量形状转换流程图;
图4为多头自注意力层示意图;
图5为验证集上的F1值曲线图;
图6为基于实体类别距离的关联注意力热力图;
图7为基于编辑距离的关联注意力热力图。
具体实施方式
本说明书中所有实施例公开的所有特征(包括任何附加权利要求、摘 要和附图),或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征 和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
如图1~7所示,基于关联记忆网络的中文细粒度命名实体识别方法, 其特征在于,包括步骤:
S1,给定输入句子S,计算输入句子S和训练集中句子的距离,将训练 集中与输入句子S距离最近的几个句子作为记忆句子;
S2,对输入句子S和记忆句子中的字符进行上下文编码,并将记忆句子 的实体标签转换为标签序列,进行标签嵌入;
S3,通过关联记忆网络计算输入句子S中每个字符和记忆句子中每个字 符的注意力矩阵,并与记忆句子对应的标签嵌入相乘,将标签信息融入序 列表示中;
S4,通过多头自注意机制结合句子任意位置之间的相互关注,对融入 了标签信息的序列表示进行重新编码;
S5,通过条件随机场学习各实体标签之间的规则,再使用维特比算法 输出概率最高的标签序列。
进一步地,包括用于构建基于关联记忆网络的中文细粒度命名实体识 别模型的程序和运行该程序的可读存储介质;所述运行该程序的可读存储 介质包括输入层模块、嵌入层模块、关联记忆网络模块、多头自注意层模 块、条件随机场层模块和输出层模块;
所述输入层模块用于进行记忆句子的选择,计算输入句子和训练集中 句子的距离,将训练集中与输入句子距离最近的几个句子作为记忆句子;
所述嵌入层模块对输入句子和记忆句子中的字符进行上下文编码,并 将记忆句子的实体标签转换为标签序列,进行标签嵌入;
所述关联记忆网络模块计算输入句子中每个字符和记忆句子中每个字 符的注意力矩阵,并与记忆句子对应的标签嵌入相乘,将标签信息融入序 列表示中;
所述多头自注意层模块结合句子任意位置之间的相互关注,对融入了 标签信息的序列表示进行重新编码;
所述条件随机场层模块学习各实体标签之间的规则;
所述输出层模块使用维特比算法输出概率最高的标签序列。
进一步地,所述输入层模块包括输入句子S、句子S在训练集中对应的n 个记忆句子和所述n个记忆句子对应的标签序列;
所述输入层模块通过计算两个句子词性序列编辑距离的方法计算句子 的距离,其包括通过计算句子S和训练集中所有句子的距离,选择前n个与 句子S距离最近的句子和这n个句子对应的标签序列存入记忆单元中。
进一步地,所述输入层模块计算句子的距离还包括通过计算实体类别 距离的方法实现,其包括先通过文本多标签预测模型预测句子中可能包含 的实体类别;然后将训练集中与输入句子包含的实体类别最相近的句子存 储在记忆单元中。
进一步地,所述嵌入层模块包括使用预训练语言模型对句子中的字符 进行上下文嵌入和对记忆句子的标签序列进行标签嵌入两部分,实现将句 子的字符映射到同一个语义空间中。
进一步地,所述使用预训练语言模型对句子中的字符进行上下文嵌入 包括通过预训练语言模型分别对所述输入句子S和对应的所述n个记忆句子 进行上下文嵌入,捕获每个字符在给定句子中的上下文信息,得到所述输 入句子S的嵌入向量表示和对应的所述n个 记忆句子的嵌入向量表示
其中,i为输入句子S第i个位置的下标,j为第j个记忆句子的下标, x为句子中的字符序列,ls为输入句子的长度,lj为第j个记忆句子的长度, xi为输入句子的第i个字符,xj,k为第j个记忆句子的第k个字符。
进一步地,所述对记忆句子的标签序列进行标签嵌入包括通过预训练 的词向量对训练集中的各类实体进行词嵌入,如果出现未登录的实体则进 行字符嵌入,词嵌入和字符嵌入的维度皆为300维;将各类实体嵌入表示 的平均数作为标签嵌入矩阵的初始化权重,采用BIOS的形式对实体进行标 记,将4位onehot向量拼接在各个实体标签嵌入的尾部,得到维度R1为304 维的标签嵌入。
进一步地,所述关联记忆网络包括输入句子和记忆句子之间的注意力 计算以及标签序列的融入和合并两部分;通过计算输入句子和记忆句子之 间的注意力,实现捕获输入句子中的每个字符对记忆句子中每个字符在实 体类别方面的相似度。
进一步地,所述输入句子和记忆句子之间的注意力计算包括通过公式计算输入句子S的嵌入向量表示s′中每个字符和 记忆句子的嵌入向量表示a′j中每个字符的相似度,得到n个ls×lj的注意力矩 阵再通过公式对注意力矩阵进 行归一化,得到归一化后的矩阵Mj,其中
进一步地,所述标签序列的融入和合并包括将归一化后的矩阵Mj与记 忆句子对应的标签嵌入序列Lj相乘得到融入了标签信息的序列L′j;将n个融 入了标签信息的序列L′j进行平均并与输入句子S的嵌入向量s′拼接得到最后 的输入句子表示e。
在本发明的其他实施例中,如图1所示,涉及一种基于关联记忆网络 的中文细粒度命名实体识别装置,结合预训练语言模型和关联记忆网络实 现相应的模块,自底向上包括输入层模块、嵌入层模块、关联记忆网络模 块、多头自注意层模块、条件随机场层模块和输出层模块等。
其中,输入层进行记忆句子的选择,计算输入句子和训练集中句子的 距离,将训练集中与输入句子距离最近的几个句子作为记忆句子;嵌入层 对输入句子和记忆句子中的字符进行上下文编码,并将记忆句子的实体标 签转换成标签序列,进行标签嵌入;关联记忆网络计算输入句子中每个字 符和记忆句子中每个字符的注意力矩阵,并与记忆句子对应的标签嵌入相 乘,将标签信息融入序列表示中;多头自注意力层结合句子任意位置之间 的相互关注,对融入了标签信息的序列表示进行重新编码;条件随机场层 学习各实体标签之间的规则;输出层使用维特比算法输出概率最高的标签 序列。
输入层的主要目的是构建记忆单元,记忆单元的最小组成部分是一个 句子以及与该距离对应的n个记忆句子;其包括输入句子S、输入句子S在训 练集中对应的n个记忆句子和这n个记忆句子对应的标签序列;本发明使用 了两种句子距离的计算方式,第一种为计算两个句子词性序列编辑距离的 方法,计算输入句子S和训练集中所有句子的距离,选择前n个与输入句子S 最近的句子和这n个句子对应的标签序列存入记忆单元中。
第二种是针对命名实体识别来计算实体类别距离的方法,计算两个句 子包含实体类别的距离,由于记忆句子需要包含输入句子中对应的实体类 别,本发明首先通过文本多标签预测模型预测句子中可能包含的实体类别, 然后将训练集中与输入句子包含的实体类别最相近的句子存储在记忆单元 中。
具体地,加入输入句子包含的实体类别集合为Ys={y1,y2,…,yk}, yk∈C,训练集中句子中包含的实体类别集合为Yt={y1,y2,…,yn},yn∈C, 其中,C是所有实体类别的集合,k和s分别表示输入句子和记忆句子包含 实体类别的数量,该方法以集合Ys和集合Yt差集包含实体类别数量|Ys-Yt|降 序,以集合Yt包含类别数量|Yt|降序,对训练集中的句子进行排序,让记忆 句子包含输入句子实体类别的同时,记忆句子包含的实体类别最少。本发明通过实验证明,当多标签文本分类模型预测句子中包含的实体类别越准 确,模型的命名实体识别的效果越好。
嵌入层是为了将句子的字符映射到同一个语义空间中,根据上下文的 语义将句子中的字符编码成向量。本发明选择RoBERTa语言模型对句子中 的字符进行编码,因为该模型是深度的神经网络模型,并且在大规模的语 料上进行训练,可以更好的归纳自然语言文本中的语义和语法上的特性, 但是由于模型参数量大,需要的计算空间也随之增大。
嵌入层包括两个部分:使用预训练语言模型对句子中的字符进行上下 文嵌入和对记忆句子的标签序列进行标签嵌入;
本发明使用预训练语言模型RoBERTa分别对输入句子S和其对应的n 个记忆句子进行上下文嵌入,捕获每个字符在给定句子中的上下文信息; 假设其中ls表示句子的长度,xi表示句子中的第i个字符。使用 预训练语言模型对句子S中字符进行上下文编码,得到嵌入表示s′,嵌入公 式如下:
其中,x′i是字符xi上下文编码向量,维度为Rd,其中d是预训练语言模 型隐藏层的维度。记忆句子的上下文嵌入过程与输入句子相同。假设,n个 记忆句子为其中lj表示第j个记忆句子的长度, xj,k表示第j个记忆句子中的第k个字符。通过预训练语言模型对n个记忆句 子进行上下文编码,得到嵌入表示a′jj∈{1,2,…,n},嵌入公式如下,其中,x′j,k是字符xj,k的上下文编码向量,维度Rd。
如图2所示,对于记忆句子的标签嵌入,本发明首先使用预训练的词 向量对训练集中的各类实体进行词嵌入,如果出现未登录的实体则进行字 符嵌入,词嵌入和字符嵌入的维度皆为300维;然后,将各类实体嵌入表 示的平均数作为标签嵌入矩阵的初始化权重。另外,由于本发明采用BIOS 形式对实体进行标记,为了表明实体标签的位置信息,将4位onehot向量 拼接在各实体标签嵌入的尾部,最后,标签嵌入的维度Rl为304维。标签 嵌入矩阵在训练过程中更新,使句子字符上下文的表示更加接近实体类别 的标签嵌入。本发明使用预训练的词向量和字符向量对标签嵌入矩阵进行 初始化,而不是选择随机初始化,是为了让初始化的标签矩阵就包含一些 实体类别的相关特征。
一般的命名实体识别模型将经过上下文编码的输入序列表示通过 softmax激活或者输入到条件随机场层进行标签序列的预测。本发明通过引 入关联记忆网络,在对输入序列表示进行标签预测之前,让输入句子的字 符去记忆句子中匹配和其类别最相关的字符的标签信息,然后将匹配的标 签信息融入输入句子的字符表示中进行预测。
关联记忆网络包含两部分:输入句子和记忆句子之间的注意力计算、 标签序列的融入与合并;计算输入句子和记忆句子之间的注意力,是为了 捕获输入句子中的每一个字符对记忆句子中每一个字符在实体类别方面的 相似度,如果两个字符拥有相同的实体标签,那么这两个字符之间就拥有 较高的关注。
如图3所示,在嵌入层得到输入句子S的嵌入向量表示s′,以及记忆句 子的向量表示a′j j∈{1,2,…,n}后,通过公式计 算句子s′中每个字符和记忆句子a′中每个字符的相似度,得到n个ls×lj的注 意力矩阵其中n是记忆句子的数量,ls是输入句子的长 度,lj是第j个记忆句子的长度。
最后,通过公式和对未经过归一化的注意力矩阵按行进行归一化, 得到归一化后的矩阵Mjj∈{1,2,…,n},其中αi,j是一个lj维的向量,该向量 的分量表示句子s中的第i个字符对记忆句子aj中每个字符的注意力权重;其 中,(·)代表softmax函数,αi,j是矩阵第i行的简化形式。
标签序列的融入与合并,如公式所示,将 归一化后的注意力矩阵Mj与记忆句子对应的标签嵌入序列Lj相乘后,得到 融入了标签信息的序列L′j,它根据输入句子s中的每个字符对记忆句子中每 个字符标签的关注程度,来计算输入句子中每个字符对应的标签类别信息。
最后,将n个融入了标签信息的序列L′j进行平均,并与句子s的上下文 向量s′拼接,得到最后的输入句子表示e,如公式e=[s′,mean(L′j)]所示。 中e的表示维度为Rd+l,mean(·)是平均函数。
多头自注意力层的主要作用是结合序列各个位置的相关度,对融合了 标签信息的字符表示进行重新编码,使用自注意力机制对句子序列进行编 码,避免了LSTM不能并行的缺点,同时可以更好的捕获全局信息。
如图4所示,多头自注意力层将最后的句子表示e作为输入,通过多头 自注意力机制从多个角度计算输入序列任意位置之间的相关度,突出序列 每个位置实体类别的最重要信息。
如公式所示,多头自注意 力机制通过不同的线性映射将输入向量映射成query、key和value的形式, 并映射到不同的子空间中,每个子空间反映不同的隐藏特征。其中, 表示映射到第i个子空间对应的参数,各参数的维度大小为 其中,d表示多头自注意力层输 入向量的维度,dQ、dV、dK分别表示query、key和value的映射维度。
然后,如公式所示,计算输入序 列中某个位置的query和所有位置的key的相似度,得到注意力矩阵。这个 注意力矩阵表示了句子中两两位置之间的关注度,将注意力矩阵和该位置 value相乘,捕获句子中任意位置之间的关系。
最后,如下公式所示:
m(ht)=concat(score1(ht),score2(ht),…,score2(ht))Wo
条件随机场的作用是约束标签序列的预测,通过以下公式计算预测标 签序列y=l1,l2,…,ls的概率P(y|s)为:
其中,WcRF和bCRF是条件随机场层的权重和偏置,反映的是各标签之 间的转换分数,通过训练对参数进行更新。
本发明的模型使用随机梯度下降进行端到端训练,通过最小化句子级 别的负对数似然来训练模型的参数。在训练过程中,由于Ling指出微调预 训练语言模型的学习率满足不了条件随机场层参数的训练。本发明在模型 训练的过程中,增大了除预训练语言模型层之外其他层的学习率,来优化 模型参数。在预测阶段,输出层使用维特比算法找到分数最高的标签预测 序列进行输出。
本发明采用CLUENER 2020数据集进行实验,该数据集的实体类别分 为10种:address,book,company,game,government,movie,name, organization,position,scene;该数据集只提供训练集和验证集的标注,不 提供测试集的标注;数据集的详细信息如表2所示,本发明采用CLUENER 2020提供的线上测评网站,以F1值对实验结果进行评价。
表2 CLUNER2020数据集描述
本实验使用Colab pro p100 16g内存。由于内存限制,在嵌入层使用中 文预训练语言模型RoBERTa的base版本,该模型是包含12层的Transformer。 本发明模型中使用的参数取值如表3所示。通过实验证明,增大其他层的 学习率,包括自注意力层和条件随机场层的学习率后,模型的效果有所提 升,学习出来的条件随机场层的参数也符合真实情况。
表3参数取值
如图5所示,本发明模型在CLUNER2020数据集上的训练过程,图5 是模型在验证集上的F1值曲线图。从图中可以看出,模型训练的前期F1 值提升较快,然后不断的波动寻找局部最优值,最后趋于平稳。
(1)实体类别距离选择方式分析
为了证明文本提出的实体类别距离的有效性,文本使用训练集和验证 集中的句子包含的gold的实体类别构建记忆单元,并在验证集上进行实验。 如表4所示,引入正确的类别标签信息,可以大幅度促进命名实体的识别。 表4中第一行和第三行对比了编辑距离方法和实体类别距离在验证集上的 效果,表中的pred表示句子包含的实体类别是通过基于bert的文本多标签 预测模型得到。从结果可以看出,本发明提出的实体类别距离在验证集上 的效果要高于编辑距离,通过第二行和第三行的对比,句子包含的实体类 别预测越准确,模型的效果越高;从实验结果可以看出,细粒度命名实体 识别任务还有很大的提升空间,该任务的挑战在于对实体类别的预测。
表4验证集上距离计算方法的消融实验
(2)各实体类别评价指标分析
RoBERTa-Base模型和本发明模型在验证集上,各实体类别精确率,召 回率和F1的对比如表5所示,从表中可以得出,在所有类别总体的准确率 和召回率上,本发明模型都有所提升,在各类别的召回率上,本发明模型 都较高,说明本发明模型能多识别更多的命名实体。从表5可以看出模型 对“地址”和“景点”的类别实体的类别的实体效果差,模型的效果取决 于对这两种类别实体的识别和区分。
表5验证集上的模型对比
(3)消融实验和基线模型对比
为了分析模型不同模块对实体识别效果的影响程度,本发明在 Roberta-base模型+关联注意力网络的基础上,分别做了2组消融实验,分 别去除了关联记忆网络、去除了预训练语言模型并使用BiLSTM+字符嵌入 进行上下文编码。实验结果如表6所示,分别验证了预训练语言模型,关 联记忆网络对实验结果的影响。
表6消融实验
从消融实验结果可以看出,去掉关联记忆网络之后,模型的F1值下降 了0.823%,说明关联记忆网络可以将训练集中的标签信息融入到字符表示 中,引入类别的标签信息对细粒度命名实体的识别有促进作用。去掉训练 语言模型,使用BiLTSM+char embedding去句子进行嵌入层编码,效果明 显下降,说明预训练语言模型拥有比LSTM更好的上下文编码能力。
表7各模型F1值对比
表7将本发明模型结果与对应的基线模型进行对比,表7中, LSTM+CRF和BERT-Base语言模型是Xu等人提出的2个基线模型,本发 明使用RoBERTa-wwm-base-ext语言模型作为基线。RoBERTa是BERT语 言模型的升级版本,wwm表示该语言模型在训练过程中使用了完整的单词 遮蔽,ext表示使用了更大规模的扩展语料,base表示模型使用12层Transformer。
表7第二行和第三行的对比中,可以看出在基于LSTM+CRF的模型结 构上加入关联记忆网络,模型的识别效果有所提升。从第五行和第6行可 以看出,在使用预训练语言模型的基础上,加上关联记忆网络之后,借助 正确的实体类别信息,模型的效果也有明显的提升。
(4)关联注意力矩阵分析
如图6所示,我们通过分析各关联句子间的注意力矩阵来验证关联记 忆网络的有效性;图中方格的亮度代表字符之间的相关性,从图中可以看 出,对于“书籍”实体,输入句子中的“证券时报”与记忆句子中的“《推 背图》”存在强关联;对于“名字”实体,实体“唐XX”和实体“李淳风” 存在强关联;对于“职位”实体,实体“记者”和“作者”存在强关联。 这说明相同实体种类的上下文向量更加接近,通过捕获记忆句子中强关联 实体的真实标签信息,就可以增加输入句子中实体的类别预测。
如图7所示,从图中发现当记忆句子中不包含输入句子中的一些实体 类别时,记忆句子的一些实体会关联到句子的其他位置。因为记忆句子中 不包含“书籍”的实体类别,导致“书籍”实体“证券时报”关联到了“职 位”实体”处长”,但是最终模型还是对“证券时报”做出了正确的预测。 从实验中发现,基于编辑距离的记忆句子选择方式出现上述情况的可能性 要大于基于实体类别距离的记忆句子选择方式,但模型通过训练能很好的 对错误融入的标签信息进行处理,所以在对句子包含的实体类别预测效果 不佳的情况下,基于编辑距离的记忆句子选择方式要好于第二种。
由于,基于编辑距离的模型具有一定利用正确实体类别信息和处理错 误实体类别信息的能力,本发明针对模型识别“地址”类别实体能力差的 特点,尝试将所有句子的类别标签信息用“地址”类别的标签嵌入替换, 如表8所示,发现模型的整体的识别效果得到了大幅度提升。
表8使用增强地址信息的模型F1值
本发明充分利用了预训练语言模型捕获了句子字符的上下文信息,同 时利用关联记忆网络,使字符的上下文信息接近于实体类别的标签信息, 并将类别的标签信息融入到序列的字符表示中,最后利用多头自注意网络 高效的计算了句子任意位置间的关注度,对融入了标签信息的字符表示进 行重新编码,增加了实体识别的效果。实验结果表明,本发明模型在细粒 度命名实体识别任务中取得了更好的效果,在未来的工作中,希望针对细粒度命名实体识别,设计多标签文本分类模型,来提高预测句子中包含的 实体类别的效果,结合本发明提出的实体类别距离的计算方法,来提高模 型的识别效果。
本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或 使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发 明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的 部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储 介质中,在一台计算机设备(可以是个人计算机,服务器,或者网络设备 等)以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。 而前述的存储介质包括:U盘、移动硬盘、或者光盘等各种可以存储程序 代码的介质,进行测试或者实际的数据在程序实现中存在于只读存储器 (Random Access Memory,RAM)、随机存取存储器(Random Access Memory,RAM)等。
Claims (10)
1.基于关联记忆网络的中文细粒度命名实体识别方法,其特征在于,包括步骤:
S1,给定输入句子S,计算输入句子S和训练集中句子的距离,将训练集中与输入句子S距离最近的几个句子作为记忆句子;
S2,对输入句子S和记忆句子中的字符进行上下文编码,并将记忆句子的实体标签转换为标签序列,进行标签嵌入;
S3,通过关联记忆网络计算输入句子S中每个字符和记忆句子中每个字符的注意力矩阵,并与记忆句子对应的标签嵌入相乘,将标签信息融入序列表示中;
S4,通过多头自注意机制结合句子任意位置之间的相互关注,对融入了标签信息的序列表示进行重新编码;
S5,通过条件随机场学习各实体标签之间的规则,再使用维特比算法输出概率最高的标签序列。
2.基于关联记忆网络的中文细粒度命名实体识别装置,其特征在于,包括用于构建基于关联记忆网络的中文细粒度命名实体识别模型的程序和运行该程序的可读存储介质;所述运行该程序的可读存储介质包括输入层模块、嵌入层模块、关联记忆网络模块、多头自注意层模块、条件随机场层模块和输出层模块;
所述输入层模块用于进行记忆句子的选择,计算输入句子和训练集中句子的距离,将训练集中与输入句子距离最近的几个句子作为记忆句子;
所述嵌入层模块对输入句子和记忆句子中的字符进行上下文编码,并将记忆句子的实体标签转换为标签序列,进行标签嵌入;
所述关联记忆网络模块计算输入句子中每个字符和记忆句子中每个字符的注意力矩阵,并与记忆句子对应的标签嵌入相乘,将标签信息融入序列表示中;
所述多头自注意层模块结合句子任意位置之间的相互关注,对融入了标签信息的序列表示进行重新编码;
所述条件随机场层模块学习各实体标签之间的规则;
所述输出层模块使用维特比算法输出概率最高的标签序列。
3.根据权利要求2所述的基于关联记忆网络的中文细粒度命名实体识别装置,其特征在于,所述输入层模块包括输入句子S、句子S在训练集中对应的n个记忆句子和所述n个记忆句子对应的标签序列;
所述输入层模块通过计算两个句子词性序列编辑距离的方法计算句子的距离,其包括通过计算句子S和训练集中所有句子的距离,选择前n个与句子S距离最近的句子和这n个句子对应的标签序列存入记忆单元中。
4.根据权利要求2或3任一所述的基于关联记忆网络的中文细粒度命名实体识别装置,其特征在于,所述输入层模块计算句子的距离还包括通过计算实体类别距离的方法实现,其包括先通过文本多标签预测模型预测句子中可能包含的实体类别;然后将训练集中与输入句子包含的实体类别最相近的句子存储在记忆单元中。
5.根据权利要求4所述的基于关联记忆网络的中文细粒度命名实体识别装置,其特征在于,所述嵌入层模块包括使用预训练语言模型对句子中的字符进行上下文嵌入和对记忆句子的标签序列进行标签嵌入两部分,实现将句子的字符映射到同一个语义空间中。
7.根据权利要求5所述的基于关联记忆网络的中文细粒度命名实体识别装置,其特征在于,所述对记忆句子的标签序列进行标签嵌入包括通过预训练的词向量对训练集中的各类实体进行词嵌入,如果出现未登录的实体则进行字符嵌入,词嵌入和字符嵌入的维度皆为300维;将各类实体嵌入表示的平均数作为标签嵌入矩阵的初始化权重,采用BIOS的形式对实体进行标记,将4位onehot向量拼接在各个实体标签嵌入的尾部,得到维度Rl为304维的标签嵌入。
8.根据权利要求2所述的基于关联记忆网络的中文细粒度命名实体识别装置,其特征在于,所述关联记忆网络包括输入句子和记忆句子之间的注意力计算以及标签序列的融入和合并两部分;通过计算输入句子和记忆句子之间的注意力,实现捕获输入句子中的每个字符对记忆句子中每个字符在实体类别方面的相似度。
10.根据权利要求9所述的基于关联记忆网络的中文细粒度命名实体识别装置,其特征在于,所述标签序列的融入和合并包括将归一化后的矩阵Mj与记忆句子对应的标签嵌入序列Lj相乘得到融入了标签信息的序列L′j;将n个融入了标签信息的序列L′j进行平均并与输入句子S的嵌入向量s′拼接得到最后的输入句子表示e。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011344221.2A CN112883732A (zh) | 2020-11-26 | 2020-11-26 | 基于关联记忆网络的中文细粒度命名实体识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011344221.2A CN112883732A (zh) | 2020-11-26 | 2020-11-26 | 基于关联记忆网络的中文细粒度命名实体识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112883732A true CN112883732A (zh) | 2021-06-01 |
Family
ID=76043084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011344221.2A Pending CN112883732A (zh) | 2020-11-26 | 2020-11-26 | 基于关联记忆网络的中文细粒度命名实体识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112883732A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297851A (zh) * | 2021-06-21 | 2021-08-24 | 北京富通东方科技有限公司 | 一种针对易混淆运动损伤实体词的识别方法 |
CN114036950A (zh) * | 2021-11-10 | 2022-02-11 | 山东大学 | 一种医疗文本命名实体识别方法及系统 |
CN114330349A (zh) * | 2022-01-05 | 2022-04-12 | 北京航空航天大学 | 一种特定领域命名实体识别方法 |
CN114781375A (zh) * | 2022-05-19 | 2022-07-22 | 中国电子科技集团公司第二十八研究所 | 一种基于bert与注意力机制的军事装备关系抽取方法 |
CN114818717A (zh) * | 2022-05-25 | 2022-07-29 | 华侨大学 | 融合词汇和句法信息的中文命名实体识别方法及系统 |
CN115114934A (zh) * | 2022-07-15 | 2022-09-27 | 广东工业大学 | 一种标签融合的联合抽取方法 |
CN115168568A (zh) * | 2022-03-16 | 2022-10-11 | 腾讯科技(深圳)有限公司 | 一种数据内容的识别方法、装置以及存储介质 |
CN115545043A (zh) * | 2022-11-29 | 2022-12-30 | 城云科技(中国)有限公司 | 一种实体与关系并行抽取模型及其构建方法、装置及应用 |
CN116341554A (zh) * | 2023-05-22 | 2023-06-27 | 中国科学技术大学 | 面向生物医学文本的命名实体识别模型的训练方法 |
CN117236338A (zh) * | 2023-08-29 | 2023-12-15 | 北京工商大学 | 一种稠密实体文本的命名实体识别模型及其训练方法 |
CN117291189A (zh) * | 2023-11-24 | 2023-12-26 | 安徽大学 | 基于ma-rbc模型的水稻病虫害命名实体识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210037A (zh) * | 2019-06-12 | 2019-09-06 | 四川大学 | 面向循证医学领域的类别检测方法 |
CN110473595A (zh) * | 2019-07-04 | 2019-11-19 | 四川大学 | 一种结合最短依存路径的胶囊网络关系抽取模型 |
CN110570920A (zh) * | 2019-08-20 | 2019-12-13 | 华东理工大学 | 一种基于集中注意力模型的实体、关系联合学习方法 |
CN111222338A (zh) * | 2020-01-08 | 2020-06-02 | 大连理工大学 | 基于预训练模型和自注意力机制的生物医学关系抽取方法 |
CN111414481A (zh) * | 2020-03-19 | 2020-07-14 | 哈尔滨理工大学 | 基于拼音和bert嵌入的中文语义匹配方法 |
CN111783462A (zh) * | 2020-06-30 | 2020-10-16 | 大连民族大学 | 基于双神经网络融合的中文命名实体识别模型及方法 |
-
2020
- 2020-11-26 CN CN202011344221.2A patent/CN112883732A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210037A (zh) * | 2019-06-12 | 2019-09-06 | 四川大学 | 面向循证医学领域的类别检测方法 |
CN110473595A (zh) * | 2019-07-04 | 2019-11-19 | 四川大学 | 一种结合最短依存路径的胶囊网络关系抽取模型 |
CN110570920A (zh) * | 2019-08-20 | 2019-12-13 | 华东理工大学 | 一种基于集中注意力模型的实体、关系联合学习方法 |
CN111222338A (zh) * | 2020-01-08 | 2020-06-02 | 大连理工大学 | 基于预训练模型和自注意力机制的生物医学关系抽取方法 |
CN111414481A (zh) * | 2020-03-19 | 2020-07-14 | 哈尔滨理工大学 | 基于拼音和bert嵌入的中文语义匹配方法 |
CN111783462A (zh) * | 2020-06-30 | 2020-10-16 | 大连民族大学 | 基于双神经网络融合的中文命名实体识别模型及方法 |
Non-Patent Citations (3)
Title |
---|
CHAOYU GUAN: "Semantic Role Labeling with Associated Memory Network", 《NAACL 2019》 * |
QIAN WAN: "A self-attention based neural architecture for Chinese medical named entity recognition", 《MATHMATICAL BIOSCIENCES AND ENGINEERING》 * |
机器玄学实践者: "【最新试验】用预训练模型Roberta做序列标注", 《BLOG.CSDN.NET/WEIXIN_39673686/ARTICLE/DETAILS/100939650》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297851B (zh) * | 2021-06-21 | 2024-03-05 | 北京富通东方科技有限公司 | 一种针对易混淆运动损伤实体词的识别方法 |
CN113297851A (zh) * | 2021-06-21 | 2021-08-24 | 北京富通东方科技有限公司 | 一种针对易混淆运动损伤实体词的识别方法 |
CN114036950A (zh) * | 2021-11-10 | 2022-02-11 | 山东大学 | 一种医疗文本命名实体识别方法及系统 |
CN114036950B (zh) * | 2021-11-10 | 2024-05-10 | 山东大学 | 一种医疗文本命名实体识别方法及系统 |
CN114330349A (zh) * | 2022-01-05 | 2022-04-12 | 北京航空航天大学 | 一种特定领域命名实体识别方法 |
CN115168568A (zh) * | 2022-03-16 | 2022-10-11 | 腾讯科技(深圳)有限公司 | 一种数据内容的识别方法、装置以及存储介质 |
CN115168568B (zh) * | 2022-03-16 | 2024-04-05 | 腾讯科技(深圳)有限公司 | 一种数据内容的识别方法、装置以及存储介质 |
CN114781375A (zh) * | 2022-05-19 | 2022-07-22 | 中国电子科技集团公司第二十八研究所 | 一种基于bert与注意力机制的军事装备关系抽取方法 |
CN114818717A (zh) * | 2022-05-25 | 2022-07-29 | 华侨大学 | 融合词汇和句法信息的中文命名实体识别方法及系统 |
CN115114934A (zh) * | 2022-07-15 | 2022-09-27 | 广东工业大学 | 一种标签融合的联合抽取方法 |
CN115545043B (zh) * | 2022-11-29 | 2023-04-07 | 城云科技(中国)有限公司 | 一种实体与关系并行抽取模型及其构建方法、装置及应用 |
CN115545043A (zh) * | 2022-11-29 | 2022-12-30 | 城云科技(中国)有限公司 | 一种实体与关系并行抽取模型及其构建方法、装置及应用 |
CN116341554B (zh) * | 2023-05-22 | 2023-08-29 | 中国科学技术大学 | 面向生物医学文本的命名实体识别模型的训练方法 |
CN116341554A (zh) * | 2023-05-22 | 2023-06-27 | 中国科学技术大学 | 面向生物医学文本的命名实体识别模型的训练方法 |
CN117236338A (zh) * | 2023-08-29 | 2023-12-15 | 北京工商大学 | 一种稠密实体文本的命名实体识别模型及其训练方法 |
CN117236338B (zh) * | 2023-08-29 | 2024-05-28 | 北京工商大学 | 一种稠密实体文本的命名实体识别模型及其训练方法 |
CN117291189A (zh) * | 2023-11-24 | 2023-12-26 | 安徽大学 | 基于ma-rbc模型的水稻病虫害命名实体识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112883732A (zh) | 基于关联记忆网络的中文细粒度命名实体识别方法及装置 | |
Neculoiu et al. | Learning text similarity with siamese recurrent networks | |
CN110427623B (zh) | 半结构化文档知识抽取方法、装置、电子设备及存储介质 | |
Niu et al. | Multi-modal multi-scale deep learning for large-scale image annotation | |
CN108628828B (zh) | 一种基于自注意力的观点及其持有者的联合抽取方法 | |
CN113283551B (zh) | 多模态预训练模型的训练方法、训练装置及电子设备 | |
CN111160031A (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN112231472B (zh) | 融入领域术语词典的司法舆情敏感信息识别方法 | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
CN111985239A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN110489750A (zh) | 基于双向lstm-crf的缅甸语分词及词性标注方法及装置 | |
CN112183094A (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
CN114298035A (zh) | 一种文本识别脱敏方法及其系统 | |
CN116151256A (zh) | 一种基于多任务和提示学习的小样本命名实体识别方法 | |
CN113961666B (zh) | 关键词识别方法、装置、设备、介质及计算机程序产品 | |
Che et al. | Visual relationship embedding network for image paragraph generation | |
CN113569050A (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN112633431A (zh) | 一种基于crnn和ctc的藏汉双语场景文字识别方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
Jain et al. | “UTTAM” An Efficient Spelling Correction System for Hindi Language Based on Supervised Learning | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
CN114780582A (zh) | 基于表格问答的自然答案生成系统及其方法 | |
CN110852071B (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN114328934A (zh) | 一种基于注意力机制的多标签文本分类方法及系统 | |
CN114691864A (zh) | 文本分类模型训练方法及装置、文本分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210601 |
|
RJ01 | Rejection of invention patent application after publication |