CN113886522B - 一种基于路径扩展的非连续实体识别方法 - Google Patents

一种基于路径扩展的非连续实体识别方法 Download PDF

Info

Publication number
CN113886522B
CN113886522B CN202111070443.4A CN202111070443A CN113886522B CN 113886522 B CN113886522 B CN 113886522B CN 202111070443 A CN202111070443 A CN 202111070443A CN 113886522 B CN113886522 B CN 113886522B
Authority
CN
China
Prior art keywords
character
entity
path
encoder
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111070443.4A
Other languages
English (en)
Other versions
CN113886522A (zh
Inventor
胡岩峰
胡政
潘宇顺
陈诗旭
乔雪
宋路杰
丁士伟
吕东帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Aerospace Information Research Institute
Original Assignee
Suzhou Aerospace Information Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Aerospace Information Research Institute filed Critical Suzhou Aerospace Information Research Institute
Priority to CN202111070443.4A priority Critical patent/CN113886522B/zh
Publication of CN113886522A publication Critical patent/CN113886522A/zh
Application granted granted Critical
Publication of CN113886522B publication Critical patent/CN113886522B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提出了一种基于路径扩展的非连续实体识别方法,对文本序列使用Transformer‑1编码器编码;将Transformer‑1编码器的输出通过一层线性映射层映射为实体首字符判别向量,并使用softmax函数得到字符标签预测值,以获得实体首字符的索引值;针对预测的每个实体首字符,将其对应的Transformer‑1编码器输出向量与其后字符的Transformer‑1编码器输出向量拼接,使用Transformer‑2编码器进行编码,接着通过一层线性映射层映射为实体尾字符判别向量,并使用softmax函数得到字符标签预测值,以获得对应实体首字符的实体尾字符索引值;针对每对实体首字符和实体尾字符区间字符使用路径扩展方法,得到实体表示的路径;解码获得的实体表示路径,得到识别出的实体。本发明避免了解码模糊性问题,提高了识别的准确率。

Description

一种基于路径扩展的非连续实体识别方法
技术领域
本发明涉及自然语言处理技术,具体涉及一种基于路径扩展的非连续实体识别方法。
背景技术
实体识别是自然语言处理中的一项基本任务,其目的是从文本中检测出实体的边界并划分实体类别。目前,大多数方法将实体识别形式化为序列标注任务。然而,这些方法难以解决非连续、嵌套等不规则实体识别问题。
近年来,主流的非连续实体识别方法主要包括:字符级方法和句子级方法。字符级方法依然基于序列标注架构,将BIO标签扩展为更复杂的标签来表示非连续实体。例如,文献[1]引入BH、IH、BD和ID等四个标签以表示非连续实体。句子级方法将句子建模为一个整体结构来构建更有效的推理系统,以整体预测句子中的实体[2]。例如,文献[3]提出使用超图将字符表示为图中不同类型的节点,使用图中两点之间的路径表示句子中的非连续实体。但是上述方法在最后的解码阶段都会遭受一定程度的模糊性(对应多种解码结果),导致无法准确识别非连续实体[4]
[1]Metke-Jimenez A,Karimi S.Concept Identification and Normalisationfor Adverse Drug Event Discovery in Medical Forums[C]//THE FIRSTINTERNATIONAL WORKSHOP ON BIOMEDICAL DATA INTEGRATION AND DISCOVERY.2016.
[2]Muis A O,Lu W.Learning to Recognize Discontiguous Entities[J].2018.
[3]Lu W,Roth D.Joint mention extraction and classification withmention hypergraphs[C]//Proceedings of the 2015Conference on EmpiricalMethods in Natural Language Processing.2015:857-867.
[4]Dai X,Karimi S,Hachey B,et al.An Effective Transition-based Modelfor Discontinuous NER[C]//Proceedings of the 58th Annual Meeting of theAssociation for Computational Linguistics.2020.
发明内容
本发明的目的在于提出一种基于路径扩展的非连续实体识别方法,以解决非连续实体识别因解码模糊性造成的识别精度不高等问题。
实现本发明目的的技术解决方案为:一种基于路径扩展的非连续实体识别方法,具体步骤如下:
步骤1,对文本序列使用Transformer-1编码器编码;
步骤2,将Transformer-1编码器的输出通过一层线性映射层映射为实体首字符判别向量,并使用softmax函数得到字符标签预测值,以获得实体首字符的索引值;
步骤3,针对预测的每个实体首字符,将其对应的Transformer-1编码器输出向量与其后字符的Transformer-1编码器输出向量拼接,使用Transformer-2编码器进行编码,接着通过一层线性映射层映射为实体尾字符判别向量,并使用softmax函数得到字符标签预测值,以获得对应实体首字符的实体尾字符索引值;
步骤4,针对每对实体首字符和实体尾字符区间字符使用路径扩展方法,得到实体表示的路径;
步骤5,解码获得的实体表示路径,得到识别出的实体。
进一步的,步骤1中,对文本序列使用Transformer-1编码器编码,具体公式如下:
H=Transformer-1(X) (1)
其中,H={h1,h2,...,hn}表示Transformer-1编码器的输出,X={x1,x2,...,xn}表示文本序列,n表示文本序列长度。
进一步的,步骤2中,将Transformer-1编码器的输出通过一层线性映射层映射到实体首字符的分类类别数,并使用softmax函数得到第i个字符标签预测值
Figure BDA0003260021980000021
具体公式如下:
Figure BDA0003260021980000022
其中,W1是Transformer-1编码器的权重矩阵,b1是Transformer-1编码器的偏置量,hi是第i个字符的Transformer-1编码器输出,
Figure BDA0003260021980000023
表示该字符是实体首字符,
Figure BDA0003260021980000024
表示该字符不是实体首字符。
进一步的,步骤3中,针对预测的每个实体首字符xk,将其对应的Transformer-1编码器输出向量与其后字符对应的Transformer-1编码器输出向量拼接,使用Transformer-2编码器进行编码,接着通过一层线性映射层映射为实体尾字符判别向量,并使用softmax函数得到第j个字符标签预测值
Figure BDA0003260021980000025
具体公式如下:
Figure BDA0003260021980000026
Figure BDA0003260021980000031
其中,
Figure BDA0003260021980000032
表示向量拼接操作,W2是Transformer-2编码器的权重矩阵,b2是Transformer-2编码器的偏置量,
Figure BDA0003260021980000033
是第j个字符与hk拼接后通过Transformer-2编码的向量,
Figure BDA0003260021980000034
表示该字符是首字符序号为k的实体的尾字符,
Figure BDA0003260021980000035
表示该字符不是首字符序号为k的实体的尾字符。
进一步的,步骤4中,针对首字符为xk尾字符为xj的实体区间[xk,...,xj]使用路径扩展方法,得到实体表示的路径,具体方法为:
将路径扩展视为字符的多分类问题,同时对每条路径设置记忆向量,将记忆向量与Transformer-1编码后的字符输出向量拼接,通过一层线性映射层进行路径扩展分类,具体公式如下:
Figure BDA0003260021980000036
Figure BDA0003260021980000037
其中,
Figure BDA0003260021980000038
表示向量拼接操作,W3是线性映射层的权重矩阵,b3是偏置量,
Figure BDA0003260021980000039
表示第p条路径第i个字符的记忆向量,hi是第i个字符的Transformer-1编码器输出,
Figure BDA00032600219800000310
是一个多维向量,表示第p条路径第i个字符的分类向量,第一维向量为1表示该字符不是当前实体表示路径上的点,其余维向量为1表示该字符是对应类别实体表示路径上的点,当
Figure BDA00032600219800000311
在多个维度上的值都为1,第p条路径分支出多个新路径,新路径的初始记忆向量等于
Figure BDA00032600219800000312
一种基于路径扩展的非连续实体识别系统,基于所述的基于路径扩展的非连续实体识别方法,实现基于路径扩展的非连续实体识别。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,基于所述的基于路径扩展的非连续实体识别方法,实现基于路径扩展的非连续实体识别。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,基于所述的基于路径扩展的非连续实体识别方法,实现基于路径扩展的非连续实体识别。
本发明与现有技术相比,其显著优点为:首先判断出实体的首字符索引和尾字符索引,针对实体首尾字符索引直接的实体表示区间,使用路径扩展方法得到实体表示路径,最终解码实体表示路径得到实体,避免了目前大部分非连续实体识别方法遭遇的解码模糊性问题,有效提高了非连续实体识别的准确率。
附图说明
图1是基于路径扩展的非连续实体识别方法的流程图;
图2是路径扩展的模型结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1-2所示,基于路径扩展的非连续实体识别方法,具体实现步骤如下:
步骤1,对文本序列使用Transformer-1编码器编码,具体公式如下:
H=Transformer-1(X) (1)
其中,H={h1,h2,...,hn}表示Transformer-1编码器的输出,X={x1,x2,...,xn}表示文本序列,n表示文本序列长度。
步骤2,将Transformer-1编码器的输出通过一层线性映射层映射为实体首字符判别向量,并使用softmax函数得到第i个字符标签预测值
Figure BDA0003260021980000041
(1表示该字符是实体首字符,0表示该字符不是实体首字符),具体公式如下:
Figure BDA0003260021980000042
其中,W1是Transformer-1编码器的权重矩阵,b1是Transformer-1编码器的偏置量,hi是第i个字符的Transformer-1编码器输出。
步骤3,针对预测的每个实体首字符xk,将其输出向量与其后字符的输出向量拼接,使用Transformer-2编码器进行编码,接着通过一层线性映射层映射为实体尾字符判别向量,并使用softmax函数得到字符标签预测值
Figure BDA0003260021980000043
(1表示该字符是首字符序号为k的实体的尾字符,0表示该字符不是首字符序号为k的实体的尾字符)具体公式如下:
Figure BDA0003260021980000044
Figure BDA0003260021980000051
其中,
Figure BDA0003260021980000052
表示向量拼接操作,W2是Transformer-2编码器的权重矩阵,b2是Transformer-2编码器的偏置量,
Figure BDA0003260021980000053
是第j个字符与hk拼接后通过Transformer-2编码的向量。
步骤4,针对首字符为xk尾字符为xj的实体区间[xk,...,xj]使用路径扩展方法,得到实体表示的路径。
将路径扩展视为字符的多分类问题,即判断字符是否是当前实体表示路径上的点。同时为了增强对当前路径和历史上下文感知,对每条路径设置记忆向量,将记忆向量与Transformer-1编码后的字符输出向量拼接,通过一层线性映射层进行路径扩展分类。具体公式如下:
Figure BDA0003260021980000054
Figure BDA0003260021980000055
其中,
Figure BDA0003260021980000056
表示向量拼接操作,W3是线性映射层的权重矩阵,b3是偏置量,
Figure BDA0003260021980000057
表示第p条路径第i个字符的记忆向量,
Figure BDA0003260021980000058
是一个多维向量,表示第p条路径第i个字符的分类向量,第一维向量为1表示该字符不是当前实体表示路径上的点,其余维向量为1表示该字符是对应类别实体表示路径上的点,当
Figure BDA00032600219800000511
在多个维度上的值都为1,第p条路径分支出多个新路径,新路径的初始记忆向量等于
Figure BDA00032600219800000510
步骤5,针对所有获得的实体表示路径,解码路径得到识别出的实体。
本发明还提出一种基于路径扩展的非连续实体识别系统,基于所述的基于路径扩展的非连续实体识别方法,实现基于路径扩展的非连续实体识别。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,基于所述的基于路径扩展的非连续实体识别方法,实现基于路径扩展的非连续实体识别。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,基于所述的基于路径扩展的非连续实体识别方法,实现基于路径扩展的非连续实体识别。
实施例
为了验证本发明方案的有效性,进行如下仿真实验。
给定文本序列[Couldn′t walk or even sleep comfortably],其中,实体1是类别为ADR的Couldn′t walk comfortably,实体2是类别为ADR的Couldn′t sleepcomfortably。采用本发明方法识别出文本序列中的2个非连续实体(即实体1和实体2),具体实现步骤如下:
步骤1,使用Transformer-1编码字符串得到H=[h1,h2,...,h8];
步骤2,将H通过一层线性映射层,得到
Figure BDA0003260021980000061
(1表示该字符是实体首字符,0表示该字符不是实体首字符);
步骤3,将h1与[h2,h3,...,h8]拼接,使用Transformer-2编码,接着通过一层线性映射层,得到首字符为Couldn的实体的尾字符预测标签
Figure BDA0003260021980000062
步骤4,针对首字符为Couldn,尾字符为comfortably的实体表示区间[h1,h2,...,h8],使用路径扩展方法,得到实体表示的路径。
步骤4.1,初始化记忆向量
Figure BDA0003260021980000063
将其与h1拼接,通过一层线性映射层,得到
Figure BDA0003260021980000064
步骤4.2,将记忆向量
Figure BDA0003260021980000065
与h2拼接,通过一层线性映射层,得到
Figure BDA0003260021980000066
Figure BDA0003260021980000067
步骤4.3,将记忆向量
Figure BDA0003260021980000068
与h3拼接,通过一层线性映射层,得到
Figure BDA0003260021980000069
Figure BDA00032600219800000610
步骤4.4,将记忆向量
Figure BDA00032600219800000611
与h4拼接,通过一层线性映射层,得到
Figure BDA00032600219800000612
Figure BDA00032600219800000613
步骤4.5,针对第一条路径,将记忆向量
Figure BDA00032600219800000614
与h5拼接,通过一层线性映射层,得到
Figure BDA00032600219800000615
针对第二条路径,将记忆向量
Figure BDA00032600219800000616
与h5拼接,通过一层线性映射层,得到
Figure BDA00032600219800000617
步骤4.6,针对第一条路径,将记忆向量
Figure BDA00032600219800000618
与h6拼接,通过一层线性映射层,得到
Figure BDA0003260021980000071
针对第二条路径,将记忆向量
Figure BDA0003260021980000072
与h6拼接,通过一层线性映射层,得到
Figure BDA0003260021980000073
步骤4.7,针对第一条路径,将记忆向量
Figure BDA0003260021980000074
与h7拼接,通过一层线性映射层,得到
Figure BDA0003260021980000075
针对第二条路径,将记忆向量
Figure BDA0003260021980000076
与h7拼接,通过一层线性映射层,得到
Figure BDA0003260021980000077
步骤4.8,针对第一条路径,将记忆向量
Figure BDA0003260021980000078
与h8拼接,通过一层线性映射层,得到
Figure BDA0003260021980000079
针对第二条路径,将记忆向量
Figure BDA00032600219800000710
与h7拼接,通过一层线性映射层,得到
Figure BDA00032600219800000711
步骤5,针对获得的路径[1,1,1,1,0,0,0,1]和[1,1,1,0,0,0,1,1],提取路径中标签非0的字符,得到识别出的ADR实体1 Couldn′t walk comfortably和ADR实体2 Couldn′tsleep comfortably。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种基于路径扩展的非连续实体识别方法,其特征在于,具体步骤如下:
步骤1,对文本序列使用Transformer-1编码器编码;
步骤2,将Transformer-1编码器的输出通过一层线性映射层映射为实体首字符判别向量,并使用softmax函数得到字符标签预测值,以获得实体首字符的索引值;
步骤3,针对预测的每个实体首字符,将其对应的Transformer-1编码器输出向量与其后字符的Transformer-1编码器输出向量拼接,使用Transformer-2编码器进行编码,接着通过一层线性映射层映射为实体尾字符判别向量,并使用softmax函数得到字符标签预测值,以获得对应实体首字符的实体尾字符索引值;
步骤4,针对每对实体首字符和实体尾字符区间字符使用路径扩展方法,得到实体表示的路径;
步骤5,解码获得的实体表示路径,得到识别出的实体;
步骤4中,针对首字符为xk尾字符为xj的实体区间[xk,...,xj]使用路径扩展方法,得到实体表示的路径,具体方法为:
将路径扩展视为字符的多分类问题,同时对每条路径设置记忆向量,将记忆向量与Transformer-1编码后的字符输出向量拼接,通过一层线性映射层进行路径扩展分类,具体公式如下:
Figure FDA0003805206640000011
Figure FDA0003805206640000012
其中,
Figure FDA0003805206640000013
表示向量拼接操作,W3是线性映射层的权重矩阵,b3是线性映射层的偏置量,
Figure FDA0003805206640000014
表示第p条路径第i个字符的记忆向量,hi是第i个字符的Transformer-1编码器输出,
Figure FDA0003805206640000015
是一个多维向量,表示第p条路径第i个字符的分类向量,第一维向量为1表示该字符不是当前实体表示路径上的点,其余维向量为1表示该字符是对应类别实体表示路径上的点,当
Figure FDA0003805206640000016
在多个维度上的值都为1,第p条路径分支出多个新路径,新路径的初始记忆向量等于
Figure FDA0003805206640000017
2.根据权利要求1所述的基于路径扩展的非连续实体识别方法,其特征在于,步骤1中,对文本序列使用Transformer-1编码器编码,具体公式如下:
H=Transformer-1(X) (1)其中,H={h1,h2,...,hn}表示Transformer-1编码器的输出,X={x1,x2,...,xn}表示文本序列,n表示文本序列长度。
3.根据权利要求1所述的基于路径扩展的非连续实体识别方法,其特征在于,步骤2中,将Transformer-1编码器的输出通过一层线性映射层映射为实体首字符判别向量,并使用softmax函数得到第i个字符标签预测值
Figure FDA0003805206640000021
具体公式如下:
Figure FDA0003805206640000022
其中,W1是Transformer-1编码器的权重矩阵,b1是Transformer-1编码器的偏置量,hi是第i个字符的Transformer-1编码器输出,
Figure FDA0003805206640000023
表示该字符是实体首字符,
Figure FDA0003805206640000024
表示该字符不是实体首字符。
4.根据权利要求1所述的基于路径扩展的非连续实体识别方法,其特征在于,步骤3中,针对预测的每个实体首字符xk,将其对应的Transformer-1编码器输出向量与其后字符对应的Transformer-1编码器输出向量拼接,使用Transformer-2编码器进行编码,接着通过一层线性映射层映射为实体尾字符判别向量,并使用softmax函数得到第j个字符标签预测值
Figure FDA0003805206640000025
具体公式如下:
Figure FDA0003805206640000026
Figure FDA0003805206640000027
其中,
Figure FDA0003805206640000028
表示向量拼接操作,W2是Transformer-2编码器的权重矩阵,b2是Transformer-2编码器的偏置量,
Figure FDA0003805206640000029
是第j个字符与hk拼接后通过Transformer-2编码的向量,
Figure FDA00038052066400000210
表示该字符是首字符序号为k的实体的尾字符,
Figure FDA00038052066400000211
表示该字符不是首字符序号为k的实体的尾字符。
5.一种基于路径扩展的非连续实体识别系统,其特征在于,基于权利要求1-4任一项所述的基于路径扩展的非连续实体识别方法,实现基于路径扩展的非连续实体识别。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,基于权利要求1-4任一项所述的基于路径扩展的非连续实体识别方法,实现基于路径扩展的非连续实体识别。
7.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,基于权利要求1-4任一项所述的基于路径扩展的非连续实体识别方法,实现基于路径扩展的非连续实体识别。
CN202111070443.4A 2021-09-13 2021-09-13 一种基于路径扩展的非连续实体识别方法 Active CN113886522B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111070443.4A CN113886522B (zh) 2021-09-13 2021-09-13 一种基于路径扩展的非连续实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111070443.4A CN113886522B (zh) 2021-09-13 2021-09-13 一种基于路径扩展的非连续实体识别方法

Publications (2)

Publication Number Publication Date
CN113886522A CN113886522A (zh) 2022-01-04
CN113886522B true CN113886522B (zh) 2022-12-02

Family

ID=79009290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111070443.4A Active CN113886522B (zh) 2021-09-13 2021-09-13 一种基于路径扩展的非连续实体识别方法

Country Status (1)

Country Link
CN (1) CN113886522B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110969020A (zh) * 2019-11-21 2020-04-07 中国人民解放军国防科技大学 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
WO2021114745A1 (zh) * 2019-12-13 2021-06-17 华南理工大学 一种基于词缀感知的社交媒体命名实体识别方法
CN112989835A (zh) * 2021-04-21 2021-06-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种复杂医疗实体抽取方法
WO2021151322A1 (zh) * 2020-09-07 2021-08-05 平安科技(深圳)有限公司 基于深度学习模型的实体识别方法、装置、设备及介质
CN113221576A (zh) * 2021-06-01 2021-08-06 复旦大学 一种基于序列到序列架构的命名实体识别方法
CN113239186A (zh) * 2021-02-26 2021-08-10 中国科学院电子学研究所苏州研究院 一种基于多依存关系表示机制的图卷积网络关系抽取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110969020A (zh) * 2019-11-21 2020-04-07 中国人民解放军国防科技大学 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
WO2021114745A1 (zh) * 2019-12-13 2021-06-17 华南理工大学 一种基于词缀感知的社交媒体命名实体识别方法
WO2021151322A1 (zh) * 2020-09-07 2021-08-05 平安科技(深圳)有限公司 基于深度学习模型的实体识别方法、装置、设备及介质
CN113239186A (zh) * 2021-02-26 2021-08-10 中国科学院电子学研究所苏州研究院 一种基于多依存关系表示机制的图卷积网络关系抽取方法
CN112989835A (zh) * 2021-04-21 2021-06-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种复杂医疗实体抽取方法
CN113221576A (zh) * 2021-06-01 2021-08-06 复旦大学 一种基于序列到序列架构的命名实体识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于超图的非连续法律实体识别;徐建忠等;《信息技术与信息化》;20170531(第05期);第19-22页 *
家谱文本中实体关系提取方法研究;任明等;《中文信息学报》;20200630;第34卷(第06期);第45-54页 *
融合领域相关度与上下文信息的无监督窄域实体识别方法;钟宁等;《北京工业大学学报》;20180630;第44卷(第06期);第862-869页 *

Also Published As

Publication number Publication date
CN113886522A (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
US20200065374A1 (en) Method and system for joint named entity recognition and relation extraction using convolutional neural network
CN110737758A (zh) 用于生成模型的方法和装置
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN109783801B (zh) 一种电子装置、多标签分类方法及存储介质
CN112699686B (zh) 基于任务型对话系统的语义理解方法、装置、设备及介质
CN111091004B (zh) 一种语句实体标注模型的训练方法、训练装置及电子设备
CN105512110B (zh) 一种基于模糊匹配与统计的错字词知识库构建方法
CN113657098B (zh) 文本纠错方法、装置、设备及存储介质
CN113672731B (zh) 基于领域信息的情感分析方法、装置、设备及存储介质
CN111881256B (zh) 文本实体关系抽取方法、装置及计算机可读存储介质设备
CN110874536A (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
CN112687328A (zh) 确定临床描述信息的表型信息的方法、设备和介质
CN113705196A (zh) 基于图神经网络的中文开放信息抽取方法和装置
CN111401065A (zh) 实体识别方法、装置、设备及存储介质
CN114036950A (zh) 一种医疗文本命名实体识别方法及系统
CN115238026A (zh) 一种基于深度学习的医疗文本主题分割方法和装置
CN115374786A (zh) 实体和关系联合抽取方法及装置、存储介质和终端
CN114742016A (zh) 一种基于多粒度实体异构图的篇章级事件抽取方法及装置
CN113673225A (zh) 中文句子相似性判别方法、装置、计算机设备和存储介质
CN116306663B (zh) 语义角色标注方法、装置、设备以及介质
CN113886522B (zh) 一种基于路径扩展的非连续实体识别方法
CN113988085B (zh) 文本语义相似度匹配方法、装置、电子设备及存储介质
CN115358227A (zh) 一种基于短语增强的开放域关系联合抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant