CN114118093B - 一种扁平化标记增强的嵌套命名实体识别方法与系统 - Google Patents
一种扁平化标记增强的嵌套命名实体识别方法与系统 Download PDFInfo
- Publication number
- CN114118093B CN114118093B CN202210098582.6A CN202210098582A CN114118093B CN 114118093 B CN114118093 B CN 114118093B CN 202210098582 A CN202210098582 A CN 202210098582A CN 114118093 B CN114118093 B CN 114118093B
- Authority
- CN
- China
- Prior art keywords
- word
- information
- semantic vector
- words
- flattened
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种扁平化标记增强的嵌套命名实体识别方法与系统,该方法包括:将对象语句中的每个词转换为词对应的语义向量表示;进一步学习每个词在上下文中的表示,以得到融合上下文信息的词的语义向量表示;对对象语句中的每个词分别预测对应的扁平化标记信息;将融合上下文信息的词的语义向量表示与扁平化标记信息作为输入,学习得到融合扁平化标记信息的词的语义向量表示;基于融合扁平化标记信息的词的语义向量表示,对对象语句中的所有文本片段进行分类,以确定得到文本片段为某种实体或不为实体对应的概率分布。本发明充分利用内层实体的信息和文本片段的信息,可有效减少可能出现的错误传播问题。
Description
技术领域
本发明涉及计算机信息处理技术领域,特别涉及一种扁平化标记增强的嵌套命名实体识别方法与系统。
背景技术
命名实体识别(Named Entity Recognition,NER)是自然语言处理(NaturalLanguage Processing,NLP)的一项基本任务,目的是自动识别无结构文本中具有特定意义的实体。例如,人名、地名、机构名以及其它专有名词等。命名实体识别的结果被广泛运用于信息提取,问答系统,知识图谱和推荐系统等下游任务,在自然语言处理技术的研究和走向实用化的过程中占有重要的地位。
现有大部分命名实体的研究主要针对平面实体展开,基于深度学习的序列标注方法是目前主流的方法。这类方法在平面命名实体上取得了较好的识别性能,但主要缺点之一是无法识别句子中具有嵌套结构的实体。如图1所示,序列标注的方法不能同时识别嵌套的机构实体“软件 学院”和人物实体“软件 学院 的 教授”,而只能识别他们中的一个。然后,在真实的自然语言文本中,嵌套实体出现的频率并不低,例如,在常用的数据集ACE2004和ACE2005中嵌套实体占比均超过30%。忽略嵌套实体的识别必然会对下游的自然语言处理任务产生负面的影响,例如,只识别出机构实体“软件 学院”而没有识别出人物实体“软件学院 的 教授”,会导致信息提取任务中到达“行政楼”的人物信息的丢失。因此,近年来,嵌套命名实体识别(Nested Named Entity Recognition,NNER)受到学术界和工业界越来越多的关注,成为当前的研究热点之一。
现有嵌套命名实体识别的方法可以大致分为以下两大类:堆叠序列标注的方法和基于文本片段的两阶段方法。1)堆叠序列标注的方法:把文本中的嵌套实体看成多层平面实体,堆叠多个较为成熟的序列标注层,先识别最内层的实体,然后逐层识别外层实体。例如,在图1中,先识别出内层的实体“软件 学院”和“行政楼”,在此基础上识别外层实体“软件 学院 的 教授”。此类方法的好处是,在识别外层实体时,可充分利用内层实体的信息。其不足之处是序列标注方法较难充分利用文本片段的信息。2)基于文本片段的两阶段方法:将嵌套命名实体识别分解成边界检测和类型预测两个子任务。边界检测子任务的目的是找出句子中所有可能的实体首词或实体尾词,从而得到可能是实体的候选文本片段。类型预测子任务以候选文本片段为单元进行编码,用于判断其为哪种实体或不是实体。现有研究表明:基于文本片段的两阶段方法通常能取得比堆叠序列标注的方法更好的识别性能,但不足之处是在预测外层实体时没有利用内层实体的信息。另外,堆叠序列标注的方法中错误识别出的内层实体和基于文本片段的两阶段方法中漏识别的首词或尾词,都可能带来错误传播问题。
基于此,有必要一种扁平化标记增强的嵌套命名实体识别方法,以充分利用内层实体的信息和文本片段的信息,并能同时减少可能出现的错误传播问题。
发明内容
鉴于上述状况,本发明提出一种扁平化标记增强的嵌套命名实体识别方法,以解决上述技术问题。
本发明实施例提供了一种扁平化标记增强的嵌套命名实体识别方法,其中,扁平化标记为基于内层实体优先原则,联合BIO标记及实体类别,为已标注嵌套命名实体的句子中的每个词赋予对应的扁平化标记,其中,所述方法包括如下步骤:
步骤一,将对象语句中的每个词转换为词对应的语义向量表示;
步骤二,进一步学习每个词在上下文中的表示,以得到融合上下文信息的词的语义向量表示;
步骤三,对所述对象语句中的每个词分别预测对应的扁平化标记信息;
步骤四,将所述融合上下文信息的词的语义向量表示与所述扁平化标记信息作为输入,学习得到融合扁平化标记信息的词的语义向量表示;
步骤五,基于所述融合扁平化标记信息的词的语义向量表示,对所述对象语句中的所有文本片段进行分类,以确定得到所述文本片段为某种实体或不为实体对应的概率分布。
本发明提出的一种扁平化标记增强的嵌套命名实体识别方法,首先将对象语句中的每个词转换为词对应的语义向量表示;学习每个词在上下文中的表示,以得到融合上下文信息的词的语义向量表示;然后对每个词分别预测对应的扁平化标记信息,将融合上下文信息的词的语义向量表示与扁平化标记信息作为输入,以得到融合扁平化标记信息的词的语义向量表示;最后对句子中的所有文本片段进行分类,以确定文本片段为某种实体或不为实体的概率分布。本发明提出的一种扁平化标记增强的嵌套命名实体识别方法,能充分利用内层实体的信息和文本片段的信息,且可有效减少可能出现的错误传播问题。
所述一种扁平化标记增强的嵌套命名实体识别方法,其中,在所述步骤一中,所述词对应的语义向量表示包括静态词向量、动态词向量以及词性向量;
所述一种扁平化标记增强的嵌套命名实体识别方法,其中,在所述步骤二中,所述融合上下文信息的词的语义向量表示的生成方法包括如下步骤:
所述一种扁平化标记增强的嵌套命名实体识别方法,其中,在所述步骤二中,存在如下关系式:
所述一种扁平化标记增强的嵌套命名实体识别方法,其中,在所述步骤三中,对所述对象语句中的每个词分别预测对应的扁平化标记信息的方法包括如下步骤:
分别预测得到每个词对应的扁平化标记信息,在预测训练时,将多分类任务的交叉熵代价函数作为扁平化标记预测任务的代价函数,其中代价函数表示为;
所述一种扁平化标记增强的嵌套命名实体识别方法,其中,在所述步骤四中,将所述融合上下文信息的词的语义向量表示与所述扁平化标记信息作为输入,学习得到融合扁平化标记信息的词的语义向量表示的方法包括如下步骤:
所述一种扁平化标记增强的嵌套命名实体识别方法,其中,基于所述融合扁平化标记信息的词的语义向量表示,对所述对象语句中的所有文本片段进行分类,以确定得到所述文本片段为实体或不为实体对应的概率分布的方法包括如下步骤:
基于文本片段的首词与文本片段的尾词计算得到文本片段中间词的权重;
其中,为融合标记信息的首词的语义向量表示,为融合标记信息的尾词的语义向量表示,为基于首词计算的中间词的语义向量表示,为基于首词计算的中间词的权重,为基于尾词计算的文本片段中间词的语义向量表示,为基于尾词计算的中间词的权重,为融合标记信息的中间词的语义向量表示,为融合标记信息的中间词的语义向量表,为向量的转置操作,表示向量的拼接操作。
本发明还提出一种扁平化标记增强的嵌套命名实体识别系统,其中,扁平化标记为基于内层实体优先原则,联合BIO标记及实体类别,为已标注嵌套命名实体的句子中的每个词赋予对应的扁平化标记,所述系统包括:
输入层,用于将对象语句中的每个词转换为词对应的语义向量表示;
上下文编码层,用于进一步学习每个词在上下文中的表示,以得到融合上下文信息的词的语义向量表示;
扁平化标记预测层,用于对所述对象语句中的每个词分别预测对应的扁平化标记信息;
融合标记信息的编码层,用于将所述融合上下文信息的词的语义向量表示与所述扁平化标记信息作为输入,学习得到融合扁平化标记信息的词的语义向量表示;
嵌套命名实体识别层,用于基于所述融合扁平化标记信息的词的语义向量表示,对所述对象语句中的所有文本片段进行分类,以确定得到所述文本片段为实体或不为实体对应的概率分布。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为现有技术中嵌套命名实体示例图;
图2为本发明中嵌套命名实体的扁平化标记示例图;
图3为本发明提出的一种扁平化标记增强的嵌套命名实体识别方法的流程图;
图4为本发明中扁平化标记增强的嵌套命名实体识别模型图;
图5为本发明提出的一种扁平化标记增强的嵌套命名实体识别系统的结构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
在本发明中,针对嵌套命名实体设计了一套扁平化标记。具体地,基于内层实体优先的原则,联合BIO标记及实体类别,为已标注嵌套命名实体的句子中的每个词赋予一个标记。生成嵌套命名实体的扁平化标记包括以下两个步骤:(1)联合BIO标记及实体类别,对句子中的词进行标记。其中,“B”(Begin)表示实体的首词,“I”(Inside)表示实体的内部词,“O”(Other)表示不在实体中的词;实体类别包括机构(ORG)、人物(PER)和地点(LOC)等;B-ORG表示机构实体的首词,I-ORG表示机构实体的内部词等。如图2所示,第1层机构实体“软件 学院”中的词分别被标记为“B-ORG I-ORG”,地点实体“行政楼”中的词被标记为“B-LOC”;第2层人物实体“软件 学院 的 教授”中的词分别被标记为“B-PER I-PER I-PER I-PER”,词“到达”不属于任何实体,标记为“O”。(2)基于内层实体优先的原则,对这些标记进行扁平化,使得句子中的每个词仅对应一个标记。如图2所示,嵌套的实体“软件学院”和“软件学院的教授”中都包含词“软件”,且在第一步中分别被标记为“B-ORG”和“B-PER”,基于内层实体优先的原则,词“软件”的扁平化标记为“B-ORG”。经过上述两个步骤,可以为已标注嵌套命名实体的句子中的每个词赋予一个标记,称之为嵌套命名实体的扁平化标记。
进一步的,将嵌套命名实体的扁平化标记的预测作为前期辅助任务,并将识别的结果用作额外的输入信息,非常有利于后期嵌套命名实体的识别,主要表现在以下两个方面:(1)、扁平化标记中包含了内层实体的全部边界信息和类别信息,在这些信息的基础上进行外层实体的识别是比较容易的。例如,在已经知道“软件 学院”是一个内层的机构实体的情况下,模型能较容易地识别出外层实体“软件 学院 的 教授”的边界和类别(人物)。更重要的是,这也有利于模型学到一些外层实体的构成规则,比如,“某机构实体+的 教授”即为人物实体。(2)、扁平化标记中已经包含了外层实体的部分边界信息和类别信息。例如,假设预测的词序列“软件 学院 的 教授 到达”的扁平化标记分别为“B-ORG I-ORG I-PER I-PER O”,这表明包含词“教授”的外层实体类别应该是“人物”,且“教授”应该为该实体的尾词。
下面以一个具体的实例对本发明的方案进行详细地叙述。请参阅图2至图4,本发明提出一种扁平化标记增强的嵌套命名实体识别方法,其中,所述方法包括如下步骤:
S101,将对象语句中的每个词转换为词对应的语义向量表示。
在步骤S101中,所述词对应的语义向量表示包括静态词向量、动态词向量以及词性向量。
作为补充的,静态词向量可使用现有算法word2vec和GloVe等基于大量的文本预训练得到。动态词向量可使用现有算法ELMo和BERT等基于大量的文本预训练得到。每一种词性(例如,名词、动词和介词)随机初始化为一个对应的词性向量,并把所有的词性向量作为模型的参数,在模型训练的过程中进行优化。
S102,进一步学习每个词在上下文中的表示,以得到融合上下文信息的词的语义向量表示。
在步骤S102中,所述融合上下文信息的词的语义向量表示的生成方法包括如下步骤:
S103,对所述对象语句中的每个词分别预测对应的扁平化标记信息。
需要指出的是,在本发明中,把扁平化标记预测作为前期辅助任务,并将识别的结果用作额外的输入信息,非常有利于后期嵌套命名实体的识别。
具体的,在步骤S103中,对所述对象语句中的每个词分别预测对应的扁平化标记信息的方法包括如下步骤:
S1032,别预测得到每个词对应的扁平化标记信息,在预测训练时,将多分类任务的交叉熵代价函数作为扁平化标记预测任务的代价函数,其中代价函数表示为;
S104,将所述融合上下文信息的词的语义向量表示与所述扁平化标记信息作为输入,学习得到融合扁平化标记信息的词的语义向量表示。
在步骤S104中,具体包括如下步骤:
其中,为第个扁平化标记的向量表示。需要说明的是,扁平化标记的向量表示是扁平化标记增强的嵌套命名实体识别模型的参数,在模型训练的过程中随机初始化并进行优化。可以理解的,在本实施例中,为了降低错误预测的扁平化标记带来的影响,本发明中不是简单地将预测的扁平化标记作为下一层的输入,而是基于预测的概率分布进行加权求和,获得预测的扁平化标记信息的向量表示。
S105,基于所述融合扁平化标记信息的词的语义向量表示,对所述对象语句中的所有文本片段进行分类,以确定得到所述文本片段为实体或不为实体对应的概率分布。
具体的,包括如下步骤:
S1051,基于文本片段的首词与文本片段的尾词计算得到文本片段中间词的权重。
其中,为融合标记信息的首词的语义向量表示,为融合标记信息的尾词的语义向量表示,为基于首词计算的中间词的语义向量表示,为基于首词计算的中间词的权重,为基于尾词计算的文本片段中间词的语义向量表示,为基于尾词计算的中间词的权重,为融合标记信息的中间词的语义向量表示,为融合标记信息的中间词的语义向量表,为向量的转置操作,表示向量的拼接操作。
在扁平化标记增强的嵌套命名实体识别模型的训练过程中,将常用于多分类任务的交叉熵代价函数作为嵌套命名实体识别的代价函数,具体如下:
最后,基于多任务学习同时训练扁平化标记预测任务和嵌套实体识别任务,以达到相互促进的目的。为此,定义模型训练的总代价函数如下:
本发明提出的一种扁平化标记增强的嵌套命名实体识别方法,首先将对象语句中的每个词转换为词对应的语义向量表示;学习每个词在上下文中的表示,以得到融合上下文信息的词的语义向量表示;然后对每个词分别预测对应的扁平化标记信息,将融合上下文信息的词的语义向量表示与扁平化标记信息作为输入,以得到融合扁平化标记信息的词的语义向量表示;最后对句子中的所有文本片段进行分类,以确定文本片段为某种实体或不为实体的概率分布。本发明提出的一种扁平化标记增强的嵌套命名实体识别方法,充分利用内层实体的信息和文本片段的信息,可有效减少可能出现的错误传播问题。
请参阅图5,本发明还提出一种扁平化标记增强的嵌套命名实体识别系统,其中,扁平化标记为基于内层实体优先原则,联合BIO标记及实体类别,为已标注嵌套命名实体的句子中的每个词赋予对应的扁平化标记,所述系统包括:
输入层,用于将对象语句中的每个词转换为词对应的语义向量表示;
上下文编码层,用于进一步学习每个词在上下文中的表示,以得到融合上下文信息的词的语义向量表示;
扁平化标记预测层,用于对所述对象语句中的每个词分别预测对应的扁平化标记信息;
融合标记信息的编码层,用于将所述融合上下文信息的词的语义向量表示与所述扁平化标记信息作为输入,学习得到融合扁平化标记信息的词的语义向量表示;
嵌套命名实体识别层,用于基于所述融合扁平化标记信息的词的语义向量表示,对所述对象语句中的所有文本片段进行分类,以确定得到所述文本片段为某种实体或不为实体对应的概率分布。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种扁平化标记增强的嵌套命名实体识别方法,其中,扁平化标记为基于内层实体优先原则,联合BIO标记及实体类别,为已标注嵌套命名实体的句子中的每个词赋予对应的扁平化标记,其特征在于,所述方法包括如下步骤:
步骤一,将对象语句中的每个词转换为词对应的语义向量表示;
步骤二,进一步学习每个词在上下文中的表示,以得到融合上下文信息的词的语义向量表示;
步骤三,对所述对象语句中的每个词分别预测对应的扁平化标记信息;
步骤四,将所述融合上下文信息的词的语义向量表示与所述扁平化标记信息作为输入,学习得到融合扁平化标记信息的词的语义向量表示;
步骤五,基于所述融合扁平化标记信息的词的语义向量表示,对所述对象语句中的所有文本片段进行分类,以确定得到所述文本片段为实体或不为实体对应的概率分布;
在所述步骤四中,将所述融合上下文信息的词的语义向量表示与所述扁平化标记信息作为输入,学习得到融合扁平化标记信息的词的语义向量表示的方法包括如下步骤:
5.根据权利要求3所述的一种扁平化标记增强的嵌套命名实体识别方法,其特征在于,在所述步骤三中,对所述对象语句中的每个词分别预测对应的扁平化标记信息的方法包括如下步骤:
分别预测得到每个词对应的扁平化标记信息,在预测训练时,将多分类任务的交叉熵代价函数作为扁平化标记预测任务的代价函数,其中代价函数表示为;
9.一种扁平化标记增强的嵌套命名实体识别系统,其中,扁平化标记为基于内层实体优先原则,联合BIO标记及实体类别,为已标注嵌套命名实体的句子中的每个词赋予对应的扁平化标记,其特征在于,所述系统包括:
输入层,用于将对象语句中的每个词转换为词对应的语义向量表示;
上下文编码层,用于进一步学习每个词在上下文中的表示,以得到融合上下文信息的词的语义向量表示;
扁平化标记预测层,用于对所述对象语句中的每个词分别预测对应的扁平化标记信息;
融合标记信息的编码层,用于将所述融合上下文信息的词的语义向量表示与所述扁平化标记信息作为输入,学习得到融合扁平化标记信息的词的语义向量表示;
嵌套命名实体识别层,用于基于所述融合扁平化标记信息的词的语义向量表示,对所述对象语句中的所有文本片段进行分类,以确定得到所述文本片段为实体或不为实体对应的概率分布;
其中,在所述融合标记信息的编码层中,将所述融合上下文信息的词的语义向量表示与所述扁平化标记信息作为输入,学习得到融合扁平化标记信息的词的语义向量表示的方法具体包括:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210098582.6A CN114118093B (zh) | 2022-01-27 | 2022-01-27 | 一种扁平化标记增强的嵌套命名实体识别方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210098582.6A CN114118093B (zh) | 2022-01-27 | 2022-01-27 | 一种扁平化标记增强的嵌套命名实体识别方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114118093A CN114118093A (zh) | 2022-03-01 |
CN114118093B true CN114118093B (zh) | 2022-04-15 |
Family
ID=80361352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210098582.6A Active CN114118093B (zh) | 2022-01-27 | 2022-01-27 | 一种扁平化标记增强的嵌套命名实体识别方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114118093B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763201A (zh) * | 2018-05-17 | 2018-11-06 | 南京大学 | 一种基于半监督学习的开放域中文文本命名实体识别方法 |
CN110110335A (zh) * | 2019-05-09 | 2019-08-09 | 南京大学 | 一种基于层叠模型的命名实体识别方法 |
CN112446216A (zh) * | 2021-02-01 | 2021-03-05 | 华东交通大学 | 一种融合中心词信息的嵌套命名实体识别方法与装置 |
WO2022005188A1 (en) * | 2020-07-01 | 2022-01-06 | Samsung Electronics Co., Ltd. | Entity recognition method, apparatus, electronic device and computer readable storage medium |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11087086B2 (en) * | 2019-07-12 | 2021-08-10 | Adp, Llc | Named-entity recognition through sequence of classification using a deep learning neural network |
CN111126068A (zh) * | 2019-12-25 | 2020-05-08 | 中电云脑(天津)科技有限公司 | 一种中文命名实体识别方法和装置及电子设备 |
CN113688631B (zh) * | 2021-07-05 | 2023-06-09 | 广州大学 | 一种嵌套命名实体识别方法、系统、计算机和存储介质 |
-
2022
- 2022-01-27 CN CN202210098582.6A patent/CN114118093B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763201A (zh) * | 2018-05-17 | 2018-11-06 | 南京大学 | 一种基于半监督学习的开放域中文文本命名实体识别方法 |
CN110110335A (zh) * | 2019-05-09 | 2019-08-09 | 南京大学 | 一种基于层叠模型的命名实体识别方法 |
WO2022005188A1 (en) * | 2020-07-01 | 2022-01-06 | Samsung Electronics Co., Ltd. | Entity recognition method, apparatus, electronic device and computer readable storage medium |
CN112446216A (zh) * | 2021-02-01 | 2021-03-05 | 华东交通大学 | 一种融合中心词信息的嵌套命名实体识别方法与装置 |
Non-Patent Citations (3)
Title |
---|
Research on Named Entity Recognition Technology of Knowledge Graph for Flipped Classroom;Yifeng Li;《IEEE》;20210628;全文 * |
基于深度学习的命名实体识别综述;邓依依;《中文信息学报》;20210915;第35卷(第09期);第30-45页 * |
基于边界的嵌套命名实体识别方法研究;武乐飞;《万方学位论文库》;20201027;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114118093A (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112084337B (zh) | 文本分类模型的训练方法、文本分类方法及设备 | |
WO2022178919A1 (zh) | 一种基于噪声标签学习的纳税人行业分类方法 | |
CN112528676B (zh) | 文档级别的事件论元抽取方法 | |
Joty et al. | Combining intra-and multi-sentential rhetorical parsing for document-level discourse analysis | |
CN109325228B (zh) | 英文事件触发词抽取方法和系统 | |
CN111708882B (zh) | 基于Transformer的中文文本信息缺失的补全方法 | |
CN109815336B (zh) | 一种文本聚合方法及系统 | |
Chen et al. | Robust coreference resolution and entity linking on dialogues: Character identification on tv show transcripts | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
CN114297394B (zh) | 对文本中的事件论元进行抽取的方法和电子设备 | |
CN113221539B (zh) | 一种集成句法信息的嵌套命名实体识别方法与系统 | |
CN111428504B (zh) | 一种事件抽取方法和装置 | |
CN112507039A (zh) | 基于外部知识嵌入的文本理解方法 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN107797987A (zh) | 一种基于Bi‑LSTM‑CNN的混合语料命名实体识别方法 | |
WO2023124647A1 (zh) | 一种纪要确定方法及其相关设备 | |
CN113268985B (zh) | 基于关系路径的远程监督关系抽取方法、装置及介质 | |
CN114880427A (zh) | 基于多层级注意力机制的模型、事件论元抽取方法及系统 | |
CN114647730A (zh) | 一种融合图注意力和图卷积网络的事件检测方法 | |
CN114118093B (zh) | 一种扁平化标记增强的嵌套命名实体识别方法与系统 | |
CN113010635A (zh) | 一种文本纠错方法及装置 | |
CN116910196A (zh) | 一种基于多任务学习的校园安全突发事件抽取方法 | |
CN116187304A (zh) | 一种基于改进bert的自动文本纠错算法及系统 | |
CN110377753A (zh) | 基于关系触发词与gru模型的关系抽取方法及装置 | |
US11727062B1 (en) | Systems and methods for generating vector space embeddings from a multi-format document |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |