CN113886522B - 一种基于路径扩展的非连续实体识别方法 - Google Patents
一种基于路径扩展的非连续实体识别方法 Download PDFInfo
- Publication number
- CN113886522B CN113886522B CN202111070443.4A CN202111070443A CN113886522B CN 113886522 B CN113886522 B CN 113886522B CN 202111070443 A CN202111070443 A CN 202111070443A CN 113886522 B CN113886522 B CN 113886522B
- Authority
- CN
- China
- Prior art keywords
- character
- entity
- path
- encoder
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提出了一种基于路径扩展的非连续实体识别方法,对文本序列使用Transformer‑1编码器编码;将Transformer‑1编码器的输出通过一层线性映射层映射为实体首字符判别向量,并使用softmax函数得到字符标签预测值,以获得实体首字符的索引值;针对预测的每个实体首字符,将其对应的Transformer‑1编码器输出向量与其后字符的Transformer‑1编码器输出向量拼接,使用Transformer‑2编码器进行编码,接着通过一层线性映射层映射为实体尾字符判别向量,并使用softmax函数得到字符标签预测值,以获得对应实体首字符的实体尾字符索引值;针对每对实体首字符和实体尾字符区间字符使用路径扩展方法,得到实体表示的路径;解码获得的实体表示路径,得到识别出的实体。本发明避免了解码模糊性问题,提高了识别的准确率。
Description
技术领域
本发明涉及自然语言处理技术,具体涉及一种基于路径扩展的非连续实体识别方法。
背景技术
实体识别是自然语言处理中的一项基本任务,其目的是从文本中检测出实体的边界并划分实体类别。目前,大多数方法将实体识别形式化为序列标注任务。然而,这些方法难以解决非连续、嵌套等不规则实体识别问题。
近年来,主流的非连续实体识别方法主要包括:字符级方法和句子级方法。字符级方法依然基于序列标注架构,将BIO标签扩展为更复杂的标签来表示非连续实体。例如,文献[1]引入BH、IH、BD和ID等四个标签以表示非连续实体。句子级方法将句子建模为一个整体结构来构建更有效的推理系统,以整体预测句子中的实体[2]。例如,文献[3]提出使用超图将字符表示为图中不同类型的节点,使用图中两点之间的路径表示句子中的非连续实体。但是上述方法在最后的解码阶段都会遭受一定程度的模糊性(对应多种解码结果),导致无法准确识别非连续实体[4]。
[1]Metke-Jimenez A,Karimi S.Concept Identification and Normalisationfor Adverse Drug Event Discovery in Medical Forums[C]//THE FIRSTINTERNATIONAL WORKSHOP ON BIOMEDICAL DATA INTEGRATION AND DISCOVERY.2016.
[2]Muis A O,Lu W.Learning to Recognize Discontiguous Entities[J].2018.
[3]Lu W,Roth D.Joint mention extraction and classification withmention hypergraphs[C]//Proceedings of the 2015Conference on EmpiricalMethods in Natural Language Processing.2015:857-867.
[4]Dai X,Karimi S,Hachey B,et al.An Effective Transition-based Modelfor Discontinuous NER[C]//Proceedings of the 58th Annual Meeting of theAssociation for Computational Linguistics.2020.
发明内容
本发明的目的在于提出一种基于路径扩展的非连续实体识别方法,以解决非连续实体识别因解码模糊性造成的识别精度不高等问题。
实现本发明目的的技术解决方案为:一种基于路径扩展的非连续实体识别方法,具体步骤如下:
步骤1,对文本序列使用Transformer-1编码器编码;
步骤2,将Transformer-1编码器的输出通过一层线性映射层映射为实体首字符判别向量,并使用softmax函数得到字符标签预测值,以获得实体首字符的索引值;
步骤3,针对预测的每个实体首字符,将其对应的Transformer-1编码器输出向量与其后字符的Transformer-1编码器输出向量拼接,使用Transformer-2编码器进行编码,接着通过一层线性映射层映射为实体尾字符判别向量,并使用softmax函数得到字符标签预测值,以获得对应实体首字符的实体尾字符索引值;
步骤4,针对每对实体首字符和实体尾字符区间字符使用路径扩展方法,得到实体表示的路径;
步骤5,解码获得的实体表示路径,得到识别出的实体。
进一步的,步骤1中,对文本序列使用Transformer-1编码器编码,具体公式如下:
H=Transformer-1(X) (1)
其中,H={h1,h2,...,hn}表示Transformer-1编码器的输出,X={x1,x2,...,xn}表示文本序列,n表示文本序列长度。
其中,W1是Transformer-1编码器的权重矩阵,b1是Transformer-1编码器的偏置量,hi是第i个字符的Transformer-1编码器输出,表示该字符是实体首字符,表示该字符不是实体首字符。
进一步的,步骤3中,针对预测的每个实体首字符xk,将其对应的Transformer-1编码器输出向量与其后字符对应的Transformer-1编码器输出向量拼接,使用Transformer-2编码器进行编码,接着通过一层线性映射层映射为实体尾字符判别向量,并使用softmax函数得到第j个字符标签预测值具体公式如下:
其中,表示向量拼接操作,W2是Transformer-2编码器的权重矩阵,b2是Transformer-2编码器的偏置量,是第j个字符与hk拼接后通过Transformer-2编码的向量,表示该字符是首字符序号为k的实体的尾字符,表示该字符不是首字符序号为k的实体的尾字符。
进一步的,步骤4中,针对首字符为xk尾字符为xj的实体区间[xk,...,xj]使用路径扩展方法,得到实体表示的路径,具体方法为:
将路径扩展视为字符的多分类问题,同时对每条路径设置记忆向量,将记忆向量与Transformer-1编码后的字符输出向量拼接,通过一层线性映射层进行路径扩展分类,具体公式如下:
其中,表示向量拼接操作,W3是线性映射层的权重矩阵,b3是偏置量,表示第p条路径第i个字符的记忆向量,hi是第i个字符的Transformer-1编码器输出,是一个多维向量,表示第p条路径第i个字符的分类向量,第一维向量为1表示该字符不是当前实体表示路径上的点,其余维向量为1表示该字符是对应类别实体表示路径上的点,当在多个维度上的值都为1,第p条路径分支出多个新路径,新路径的初始记忆向量等于
一种基于路径扩展的非连续实体识别系统,基于所述的基于路径扩展的非连续实体识别方法,实现基于路径扩展的非连续实体识别。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,基于所述的基于路径扩展的非连续实体识别方法,实现基于路径扩展的非连续实体识别。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,基于所述的基于路径扩展的非连续实体识别方法,实现基于路径扩展的非连续实体识别。
本发明与现有技术相比,其显著优点为:首先判断出实体的首字符索引和尾字符索引,针对实体首尾字符索引直接的实体表示区间,使用路径扩展方法得到实体表示路径,最终解码实体表示路径得到实体,避免了目前大部分非连续实体识别方法遭遇的解码模糊性问题,有效提高了非连续实体识别的准确率。
附图说明
图1是基于路径扩展的非连续实体识别方法的流程图;
图2是路径扩展的模型结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1-2所示,基于路径扩展的非连续实体识别方法,具体实现步骤如下:
步骤1,对文本序列使用Transformer-1编码器编码,具体公式如下:
H=Transformer-1(X) (1)
其中,H={h1,h2,...,hn}表示Transformer-1编码器的输出,X={x1,x2,...,xn}表示文本序列,n表示文本序列长度。
步骤2,将Transformer-1编码器的输出通过一层线性映射层映射为实体首字符判别向量,并使用softmax函数得到第i个字符标签预测值(1表示该字符是实体首字符,0表示该字符不是实体首字符),具体公式如下:
其中,W1是Transformer-1编码器的权重矩阵,b1是Transformer-1编码器的偏置量,hi是第i个字符的Transformer-1编码器输出。
步骤3,针对预测的每个实体首字符xk,将其输出向量与其后字符的输出向量拼接,使用Transformer-2编码器进行编码,接着通过一层线性映射层映射为实体尾字符判别向量,并使用softmax函数得到字符标签预测值(1表示该字符是首字符序号为k的实体的尾字符,0表示该字符不是首字符序号为k的实体的尾字符)具体公式如下:
步骤4,针对首字符为xk尾字符为xj的实体区间[xk,...,xj]使用路径扩展方法,得到实体表示的路径。
将路径扩展视为字符的多分类问题,即判断字符是否是当前实体表示路径上的点。同时为了增强对当前路径和历史上下文感知,对每条路径设置记忆向量,将记忆向量与Transformer-1编码后的字符输出向量拼接,通过一层线性映射层进行路径扩展分类。具体公式如下:
其中,表示向量拼接操作,W3是线性映射层的权重矩阵,b3是偏置量,表示第p条路径第i个字符的记忆向量,是一个多维向量,表示第p条路径第i个字符的分类向量,第一维向量为1表示该字符不是当前实体表示路径上的点,其余维向量为1表示该字符是对应类别实体表示路径上的点,当在多个维度上的值都为1,第p条路径分支出多个新路径,新路径的初始记忆向量等于
步骤5,针对所有获得的实体表示路径,解码路径得到识别出的实体。
本发明还提出一种基于路径扩展的非连续实体识别系统,基于所述的基于路径扩展的非连续实体识别方法,实现基于路径扩展的非连续实体识别。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,基于所述的基于路径扩展的非连续实体识别方法,实现基于路径扩展的非连续实体识别。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,基于所述的基于路径扩展的非连续实体识别方法,实现基于路径扩展的非连续实体识别。
实施例
为了验证本发明方案的有效性,进行如下仿真实验。
给定文本序列[Couldn′t walk or even sleep comfortably],其中,实体1是类别为ADR的Couldn′t walk comfortably,实体2是类别为ADR的Couldn′t sleepcomfortably。采用本发明方法识别出文本序列中的2个非连续实体(即实体1和实体2),具体实现步骤如下:
步骤1,使用Transformer-1编码字符串得到H=[h1,h2,...,h8];
步骤4,针对首字符为Couldn,尾字符为comfortably的实体表示区间[h1,h2,...,h8],使用路径扩展方法,得到实体表示的路径。
步骤5,针对获得的路径[1,1,1,1,0,0,0,1]和[1,1,1,0,0,0,1,1],提取路径中标签非0的字符,得到识别出的ADR实体1 Couldn′t walk comfortably和ADR实体2 Couldn′tsleep comfortably。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (7)
1.一种基于路径扩展的非连续实体识别方法,其特征在于,具体步骤如下:
步骤1,对文本序列使用Transformer-1编码器编码;
步骤2,将Transformer-1编码器的输出通过一层线性映射层映射为实体首字符判别向量,并使用softmax函数得到字符标签预测值,以获得实体首字符的索引值;
步骤3,针对预测的每个实体首字符,将其对应的Transformer-1编码器输出向量与其后字符的Transformer-1编码器输出向量拼接,使用Transformer-2编码器进行编码,接着通过一层线性映射层映射为实体尾字符判别向量,并使用softmax函数得到字符标签预测值,以获得对应实体首字符的实体尾字符索引值;
步骤4,针对每对实体首字符和实体尾字符区间字符使用路径扩展方法,得到实体表示的路径;
步骤5,解码获得的实体表示路径,得到识别出的实体;
步骤4中,针对首字符为xk尾字符为xj的实体区间[xk,...,xj]使用路径扩展方法,得到实体表示的路径,具体方法为:
将路径扩展视为字符的多分类问题,同时对每条路径设置记忆向量,将记忆向量与Transformer-1编码后的字符输出向量拼接,通过一层线性映射层进行路径扩展分类,具体公式如下:
2.根据权利要求1所述的基于路径扩展的非连续实体识别方法,其特征在于,步骤1中,对文本序列使用Transformer-1编码器编码,具体公式如下:
H=Transformer-1(X) (1)其中,H={h1,h2,...,hn}表示Transformer-1编码器的输出,X={x1,x2,...,xn}表示文本序列,n表示文本序列长度。
4.根据权利要求1所述的基于路径扩展的非连续实体识别方法,其特征在于,步骤3中,针对预测的每个实体首字符xk,将其对应的Transformer-1编码器输出向量与其后字符对应的Transformer-1编码器输出向量拼接,使用Transformer-2编码器进行编码,接着通过一层线性映射层映射为实体尾字符判别向量,并使用softmax函数得到第j个字符标签预测值具体公式如下:
5.一种基于路径扩展的非连续实体识别系统,其特征在于,基于权利要求1-4任一项所述的基于路径扩展的非连续实体识别方法,实现基于路径扩展的非连续实体识别。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,基于权利要求1-4任一项所述的基于路径扩展的非连续实体识别方法,实现基于路径扩展的非连续实体识别。
7.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,基于权利要求1-4任一项所述的基于路径扩展的非连续实体识别方法,实现基于路径扩展的非连续实体识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111070443.4A CN113886522B (zh) | 2021-09-13 | 2021-09-13 | 一种基于路径扩展的非连续实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111070443.4A CN113886522B (zh) | 2021-09-13 | 2021-09-13 | 一种基于路径扩展的非连续实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113886522A CN113886522A (zh) | 2022-01-04 |
CN113886522B true CN113886522B (zh) | 2022-12-02 |
Family
ID=79009290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111070443.4A Active CN113886522B (zh) | 2021-09-13 | 2021-09-13 | 一种基于路径扩展的非连续实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113886522B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110969020A (zh) * | 2019-11-21 | 2020-04-07 | 中国人民解放军国防科技大学 | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 |
WO2021114745A1 (zh) * | 2019-12-13 | 2021-06-17 | 华南理工大学 | 一种基于词缀感知的社交媒体命名实体识别方法 |
CN112989835A (zh) * | 2021-04-21 | 2021-06-18 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种复杂医疗实体抽取方法 |
WO2021151322A1 (zh) * | 2020-09-07 | 2021-08-05 | 平安科技(深圳)有限公司 | 基于深度学习模型的实体识别方法、装置、设备及介质 |
CN113221576A (zh) * | 2021-06-01 | 2021-08-06 | 复旦大学 | 一种基于序列到序列架构的命名实体识别方法 |
CN113239186A (zh) * | 2021-02-26 | 2021-08-10 | 中国科学院电子学研究所苏州研究院 | 一种基于多依存关系表示机制的图卷积网络关系抽取方法 |
-
2021
- 2021-09-13 CN CN202111070443.4A patent/CN113886522B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110969020A (zh) * | 2019-11-21 | 2020-04-07 | 中国人民解放军国防科技大学 | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 |
WO2021114745A1 (zh) * | 2019-12-13 | 2021-06-17 | 华南理工大学 | 一种基于词缀感知的社交媒体命名实体识别方法 |
WO2021151322A1 (zh) * | 2020-09-07 | 2021-08-05 | 平安科技(深圳)有限公司 | 基于深度学习模型的实体识别方法、装置、设备及介质 |
CN113239186A (zh) * | 2021-02-26 | 2021-08-10 | 中国科学院电子学研究所苏州研究院 | 一种基于多依存关系表示机制的图卷积网络关系抽取方法 |
CN112989835A (zh) * | 2021-04-21 | 2021-06-18 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种复杂医疗实体抽取方法 |
CN113221576A (zh) * | 2021-06-01 | 2021-08-06 | 复旦大学 | 一种基于序列到序列架构的命名实体识别方法 |
Non-Patent Citations (3)
Title |
---|
基于超图的非连续法律实体识别;徐建忠等;《信息技术与信息化》;20170531(第05期);第19-22页 * |
家谱文本中实体关系提取方法研究;任明等;《中文信息学报》;20200630;第34卷(第06期);第45-54页 * |
融合领域相关度与上下文信息的无监督窄域实体识别方法;钟宁等;《北京工业大学学报》;20180630;第44卷(第06期);第862-869页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113886522A (zh) | 2022-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108416058B (zh) | 一种基于Bi-LSTM输入信息增强的关系抽取方法 | |
US20200065374A1 (en) | Method and system for joint named entity recognition and relation extraction using convolutional neural network | |
CN110737758A (zh) | 用于生成模型的方法和装置 | |
CN111062217B (zh) | 语言信息的处理方法、装置、存储介质及电子设备 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN109783801B (zh) | 一种电子装置、多标签分类方法及存储介质 | |
CN112699686B (zh) | 基于任务型对话系统的语义理解方法、装置、设备及介质 | |
CN111091004B (zh) | 一种语句实体标注模型的训练方法、训练装置及电子设备 | |
CN105512110B (zh) | 一种基于模糊匹配与统计的错字词知识库构建方法 | |
CN113657098B (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN113672731B (zh) | 基于领域信息的情感分析方法、装置、设备及存储介质 | |
CN111881256B (zh) | 文本实体关系抽取方法、装置及计算机可读存储介质设备 | |
CN110874536A (zh) | 语料质量评估模型生成方法和双语句对互译质量评估方法 | |
CN112687328A (zh) | 确定临床描述信息的表型信息的方法、设备和介质 | |
CN113705196A (zh) | 基于图神经网络的中文开放信息抽取方法和装置 | |
CN111401065A (zh) | 实体识别方法、装置、设备及存储介质 | |
CN114036950A (zh) | 一种医疗文本命名实体识别方法及系统 | |
CN115238026A (zh) | 一种基于深度学习的医疗文本主题分割方法和装置 | |
CN115374786A (zh) | 实体和关系联合抽取方法及装置、存储介质和终端 | |
CN114742016A (zh) | 一种基于多粒度实体异构图的篇章级事件抽取方法及装置 | |
CN113673225A (zh) | 中文句子相似性判别方法、装置、计算机设备和存储介质 | |
CN116306663B (zh) | 语义角色标注方法、装置、设备以及介质 | |
CN113886522B (zh) | 一种基于路径扩展的非连续实体识别方法 | |
CN113988085B (zh) | 文本语义相似度匹配方法、装置、电子设备及存储介质 | |
CN115358227A (zh) | 一种基于短语增强的开放域关系联合抽取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |