CN111651993A - 融合局部-全局字符级关联特征的中文命名实体识别方法 - Google Patents

融合局部-全局字符级关联特征的中文命名实体识别方法 Download PDF

Info

Publication number
CN111651993A
CN111651993A CN202010394579.XA CN202010394579A CN111651993A CN 111651993 A CN111651993 A CN 111651993A CN 202010394579 A CN202010394579 A CN 202010394579A CN 111651993 A CN111651993 A CN 111651993A
Authority
CN
China
Prior art keywords
character
sequence
chinese
named entity
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010394579.XA
Other languages
English (en)
Inventor
罗森林
尹继泽
吴舟婷
潘丽敏
吴倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202010394579.XA priority Critical patent/CN111651993A/zh
Publication of CN111651993A publication Critical patent/CN111651993A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及融合局部‑全局字符级关联特征的中文命名实体识别方法,属于计算机与信息科学技术领域。本发明首先将一段非结构化中文文本转化为一个初始数值向量序列;其次提取其中的字符级序列特征和局部‑全局字符级关联特征,形成特征向量序列;然后使用一个线性链式条件随机场对特征向量序列进行序列标注,得到标签序列;最后根据非结构化中文文本和标签序列,输出“实体&类别”对。本发明分别在Microsoft Research Asia和E‑commerce中文命名实体识别语料上进行实验,结果表明通过引入字符级序列特征和局部‑全局字符级关联特征,有效缓解了现有中文命名实体识别方法依赖词级别特征且非结构化中文文本缺少词边界的问题,提高了F1值。

Description

融合局部-全局字符级关联特征的中文命名实体识别方法
技术领域
本发明涉及融合局部-全局字符级关联特征的中文命名实体识别方法,属于计算机与信息科学技术领域。
背景技术
中文命名实体识别技术可以从非结构化中文文本中,判定实体的边界和实体的类别,形成结构化的“实体&类别”对作为输出。为了解决现有中文命名实体识别方法依赖词级别特征且非结构化中文文本缺少词边界的问题,需要针对中文是以字符为基本单元的特点,研究融合局部-全局字符级关联特征的中文命名实体识别技术。因此,本发明将提供融合局部-全局字符级关联特征的中文命名实体识别方法来提高系统在非结构化中文文本上识别命名实体的能力。
融合局部-全局字符级关联特征的中文命名实体识别方法需要解决的基本问题是:从非结构化中文文本中,判定实体的边界和实体的类别,形成结构化的“实体&类别”对作为输出。综观现有的中文命名实体识别方法,具体包括以下几种:
1.基于人工特征的方法。
人工特征即由研究人员基于特征工程方法设计得到。Chen等人于2006年使用一元语法、二元语法和类型特征来辅助分类器识别命名实体,而Han等人于2015年同样使用一元和二元语法特征。这表明某些人工特征确实有益于中文命名实体识别。然而,构造和筛选特征需要耗费大量人力和时间,且人工特征不能根据语言环境的变化进行自动调整。目前,基于计算资源和算法从语料中自动提取特征是一种更好的途径。
2.基于神经网络自动提取特征的方法。
神经网络自动提取特征的过程由计算机完成。Lu等设计的位置敏感skip-gram模型可以提取多原型中文字符级别特征。Zheng等人提供的神经网络结构联合提取字符特征和上下文特征。Yang等人应用卷积神经网络来提取n元语法特征。神经网络自动提取特征的限制在于神经网络结构对结果的影响难以详细解释。
3.基于神经网络和额外知识的方法。
神经网络自动提取特征和将额外知识转化为特征的过程均由计算机完成。Zhang和Yang提出lattice神经网络模型,将词和词序列信息作为额外知识引入到字符级别命名实体识别中。Peng和Dredze基于长短时记忆——条件随机场,提出针对中文分词和中文命名实体识别任务的联合训练模型,将词边界信息作为额外知识引入到命名实体识别任务中。Cao等人使用双向长短时记忆和自注意力模型搭建对抗迁移学习框架,充分使用额外知识——任务共享的词边界信息,并阻止中文分词任务特殊特征影响命名实体识别模型的训练。He和Sun使用双向长短时记忆-max margin神经网络提取特征,同时将领域外语料视为额外知识,进行跨领域学习,提升命名实体识别模型在领域内的效果。然而,额外知识意味着额外的计算开销,会降低方法的实际运行效率。
综上所述,现有中文命名实体识别方法依赖词级别特征且非结构化中文文本缺少词边界,所以本发明提出融合局部-全局字符级关联特征的中文命名实体识别方法。
发明内容
本发明的目的是为缓解现有中文命名实体识别方法依赖词级别特征且非结构化中文文本缺少词边界的问题,以提高中文命名实体识别的综合性能,提出融合局部-全局字符级关联特征的中文命名实体识别方法。
本发明的设计原理为:首先查找字符-数值向量表,替换非结构化中文文本中的每一个字符为初始数值向量;接下来,初始数值向量序列经过一种特征提取模型的处理,得到对应的特征向量序列;然后,使用一个线性链式条件随机场对特征向量序列进行序列标注,得到标签序列;最后通过后处理,输出非结构化中文文本中的命名实体,表示为结构化的“实体&类别”对。
本发明的技术方案是通过如下步骤实现的:
步骤1,对非结构化中文文本进行字符-数值向量表查找。
步骤1.1,获取公开的基于语言模型训练的字符-数值向量表。
步骤1.2,依次选择非结构化中文文本中的字符,到字符-数值向量表中查找字符对应的数值向量并进行替换,将一段中文文本转化为一个初始数值向量序列。
步骤2,提取初始数值向量序列的特征。
步骤2.1,使用双向长短时记忆处理初始数值向量序列,再使用另一个双向长短时记忆处理前一个双向长短时记忆的输出,输出字符级序列特征向量序列。
步骤2.2,使用若干个注意力头同时处理初始数值向量序列,对结果进行字符级串联,再使用一个非线性神经网络层进行处理,输出全局字符级关联特征向量序列。
步骤2.3,使用卷积注意力网络(CAN)处理初始数值向量序列,输出局部-全局字符级关联特征向量序列。
步骤2.4,将步骤2.1、步骤2.2和步骤2.3的输出在字符级别上串联,获得特征向量序列。
步骤3,标注串联后的特征向量序列。
步骤3.1,使用一个线性链式条件随机场对串联后的特征向量序列进行标注,得到标签序列。
步骤4,对非结构化中文文本和标签序列进行后处理。
步骤4.1,将非结构化中文文本和标签序列对齐,即字符和标签按前后顺序一一对应。
步骤4.2,根据标签判定命名实体,以“实体&类别”对的形式输出。
有益效果
相比于现有的中文命名实体识别方法,本发明有效缓解现有中文命名实体识别方法依赖词级别特征且非结构化中文文本缺少词边界的问题。
附图说明
图1为本发明融合局部-全局字符级关联特征的中文命名实体识别方法的原理图。
具体实施方式
为了更好地说明本发明的目的和优点,下面结合实例对本发明方法的实施方式做进一步详细说明。
具体流程为:
步骤1,对非结构化中文文本进行字符-数值向量表查找。
步骤1.1,使用Peng和Dredze提供的字符-数值向量表。表中不同的字符对应不同的数值向量,不存在同一个字符对应两个及两个以上数值向量的情况。经统计,表中存在23992个字符,对应的数值向量均为100维。对于表中没有出现的字符,使用“</s>”来替代它们,并赋予“</s>”不同于其他字符的数值向量。
步骤1.2,依次选择非结构化中文文本中的字符,到字符-数值向量表中查找字符对应的数值向量并进行替换,将一段中文文本转化为一个初始数值向量序列。
步骤2,提取初始数值向量序列的特征。
步骤2.1,提取字符级序列特征。使用双向长短时记忆处理初始数值向量序列,再使用另一个双向长短时记忆处理前一个双向长短时记忆的输出。一个双向长短时记忆包括前向和反向两个长短时记忆。前向长短时记忆以顺序(从左到右)处理序列数据,而反向长短时记忆以逆序(从右到左)处理序列数据。序列数据中每一个元素对应的前向长短时记忆和反向长短时记忆输出的串联结果即为双向长短时记忆的输出。
长短时记忆是一种经过特殊设计的神经网络模型,接受前一时刻输出ht-1和当前时刻输入vt,经过输入门、遗忘门、cell和输出门的处理得到当前时刻输出。
输入门控制进入cell的信息,其在当前时刻的状态it如式1所示。
it=σ(Wvivt+Whiht-1+Wcict-1+bi) (1)
其中σ为sigmoid函数,ct-1为前一时刻cell的状态,Wvi、Whi和Wci为权重,bi为偏置值。
遗忘门控制cell保留和遗忘的信息,其在当前时刻的状态ft如式2所示。
ft=σ(Wvfvt+Whfht-1+Wcfct-1+bf) (2)
其中Wvf、Whf和Wcf为权重,bf为偏置值。
cell负责连接其他功能结构(输入门、遗忘门和输出门),其在当前时刻的状态ct如式3所示。
ct=ftct-1+ittanh(Wvcvt+Whcht-1+bc) (3)
其中tanh表示双曲正切函数,Wvc和Whc为权重,bc为偏置值。
输出门控制cell应该输出的部分信息,其在当前时刻的状态ot如式4所示。
ot=σ(Wvovt+Whoht-1+Wcoct+bo) (4)
其中Wvo、Who和Wco为权重,bo为偏置值。
最终,长短时记忆的当前时刻输出ht如式5所示。
ht=ottanh(ct) (5)
步骤2.2,提取全局文本中所有字符与目标字符间的关联特征。使用若干个注意力头同时处理初始数值向量序列,每个注意力头是一个基于点乘的软注意力模型Attention(QWQ,KWK,VWV),具体如式6所示。
Attention(QWQ,KWK,VWV)=softmax(QWQ(KWK)T)VWV (6)
其中Q、K和V都是初始数值向量序列构成的矩阵,WQ、WK和WV为权重。
然后,若干个注意力头处理后的结果在字符级别上进行串联,如式7所示。
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
Figure BDA0002486991300000051
其中
Figure BDA0002486991300000052
和WO是权重。
最后,使用一个非线性神经网络层进行后续处理,计算字符级关联特征向量序列对应的矩阵O,如式8所示。
O=LeakyReLU(MultiHead(Q,K,V)WN+bN)+MultiHead(Q,K,V) (8)
其中,使用leaky ReLU函数作为激活函数,WN为权重,bN为偏置值。
步骤2.3,提取局部-全局文本中所有字符与目标字符间的关联特征。使用卷积注意力网络(CAN)处理初始数值向量序列,对于中文命名实体识别,输入的句子为Xi={xi,1,xi,2,xi,3,...,xi,τ},其中
Figure BDA0002486991300000053
表示句子Xi中第τ个字符,de是输入嵌入的维度。句子标签序列Yi={yi,1,yi,2,yi,3,...,yi,τ},其中
Figure BDA0002486991300000054
即yi,τ属于所有可能标签的集合。
对输入的句子进行编码,把局部文本中的意义相关字符组合起来。将位置嵌入组合到对应的训练好的字符嵌入后面,保持在局部窗口中的序列关系。位置嵌入的维度等于窗口大小k,位置嵌入中与字符在窗口中的位置对应的那一维的值是1,其他维的值是0。
在大小为k的窗口内应用局部注意力,捕获目标字符和窗口内每个字符间的关系。设隐层维度为dh,对于第j个字符,局部注意力将所有的组合嵌入
Figure BDA0002486991300000055
作为输入,输出对应的隐向量
Figure BDA0002486991300000056
隐向量的计算方式为
Figure BDA0002486991300000057
Figure BDA0002486991300000061
s(xj,xk)=vTtanh(W1xj+W2xk) (11)
其中
Figure BDA0002486991300000062
依次使用窗口大小为k、包含dh个卷积核的卷积神经网络(CNN)和一个sum-pooling层进行处理,得到
Figure BDA0002486991300000063
Figure BDA0002486991300000064
其中
Figure BDA0002486991300000065
Figure BDA0002486991300000066
*代表元素乘,
Figure BDA0002486991300000067
是隐向量
Figure BDA0002486991300000068
的组合。
然后,使用一个双向门控循环单元(BiGRU)处理
Figure BDA0002486991300000069
Figure BDA00024869913000000610
Figure BDA00024869913000000611
是BiGRU前一时刻的隐状态,
Figure BDA00024869913000000612
是参数。
最后,经过一个全局注意力层的处理得到
Figure BDA00024869913000000613
作为输出。
Figure BDA00024869913000000614
Figure BDA00024869913000000615
其中
Figure BDA00024869913000000616
与前面的相同。
步骤2.4,将步骤2.1、步骤2.2和步骤2.3的输出在字符级别上串联,获得特征向量序列。
步骤3,标注串联后的特征向量序列。
步骤3.1,使用一个线性链式条件随机场对串联后的特征向量序列X={x1,x2,...,xn}进行标注,得到标签序列Y={y1,y2,...,yn}。
模型训练时,基于线性链式条件随机场构造条件概率函数P(Y|X),使用RMSProp算法进行优化。模型训练完成后,使用维特比算法将串联后的特征向量序列解码为标签序列。涉及超参数的具体设置如表1所示。
表1不同语料对应的超参数设置
Figure BDA0002486991300000071
步骤4,对非结构化中文文本和标签序列进行后处理。
步骤4.1,将非结构化中文文本和标签序列对齐,即字符和标签按前后顺序一一对应。
步骤4.2,根据标签(BIESO)可知一个字符是否属于某个命名实体,如果属于,它是位于实体的开头、中间还是结尾。组合归属于同一类别命名实体的连续字符,以“实体&类别”对的形式输出。
测试结果:融合局部-全局字符级关联特征的中文命名实体识别方法,在Microsoft Research Asia(MSRA)中文命名实体识别语料(2006年第三届国际中文语言处理评测发布的面向简体中文命名实体识别评测任务公开语料)上进行中文命名实体识别方法的对比实验,对比方法包括Zheng等人分别于2016年和2017年提出的方法;同时在E-commerce(EC)中文命名实体识别语料上进行中文命名实体识别方法的对比实验,对比方法包括Yang等人于2018年提出的方法。本发明分别在MSRA和EC中文命名实体识别语料上优于Zheng等人和Yang等人提出的方法,不依赖词级别特征,实现了对字符级序列特征和局部-全局字符级关联特征的利用,结果如表2和表3所示,有效实现了中文命名实体识别。
表2 MSRA语料对比实验结果
Figure BDA0002486991300000072
Figure BDA0002486991300000081
表3 EC语料对比实验结果
Figure BDA0002486991300000082
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.融合局部-全局字符级关联特征的中文命名实体识别方法,其特征在于所述方法包括如下步骤:
步骤1,对非结构化中文文本进行字符-数值向量表查找,包括:获取公开的基于语言模型训练的字符-数值向量表,然后依次选择非结构化中文文本中的字符,到字符-数值向量表中查找字符对应的数值向量并进行替换,将一段中文文本转化为一个初始数值向量序列;
步骤2,提取初始数值向量序列的特征,包括:使用两个双向长短时记忆提取字符级序列特征,再使用若干个注意力头和一个非线性神经网络层提取全局字符级关联特征,以及使用卷积注意力网络提取局部-全局字符级关联特征,然后将三者的输出在字符级别上串联,获得串联后的特征向量序列;
步骤3,标注串联后的特征向量序列,包括:使用一个线性链式条件随机场对串联后的特征向量序列进行标注,得到标签序列;
步骤4,对非结构化中文文本和标签序列进行后处理,包括:将非结构化中文文本和标签序列对齐,即字符和标签按前后顺序一一对应,然后根据标签判定命名实体,以“实体&类别”对的形式输出。
2.根据权利要求1所述的融合局部-全局字符级关联特征的中文命名实体识别方法,其特征在于:步骤2中使用若干个注意力头同时处理初始数值向量序列,每个注意力头是一个基于点乘的软注意力模型Attention(QWQ,KWK,VWV),具体如式1所示;
Attention(QWQ,KWK,VWV)=softmax(QWQ(KWK)T)VWV (1)
其中Q、K和V都是初始数值向量序列构成的矩阵,WQ、WK和WV为权重;
然后,若干个注意力头处理后的结果在字符级别上进行串联,如式2所示;
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
Figure FDA0002486991290000011
其中
Figure FDA0002486991290000012
和WO是权重;
最后,使用一个非线性神经网络层进行后续处理,计算字符级关联特征向量序列对应的矩阵O,如式3所示;
O=LeakyReLU(MultiHead(Q,K,V)WN+bN)+MultiHead(Q,K,V) (3)
其中,使用leaky ReLU函数作为激活函数,WN为权重,bN为偏置值。
3.根据权利要求1所述的融合局部-全局字符级关联特征的中文命名实体识别方法,其特征在于:步骤2中使用卷积注意力网络(CAN)处理初始数值向量序列,对于中文命名实体识别,输入的句子为Xi={xi,1,xi,2,xi,3,...,xi,τ},其中
Figure FDA0002486991290000021
表示句子Xi中第τ个字符,de是输入嵌入的维度;句子标签序列Yi={yi,1,yi,2,yi,3,...,yi,τ},其中
Figure FDA0002486991290000022
即yi,τ属于所有可能标签的集合;
对输入的句子进行编码,把局部文本中的意义相关字符组合起来;将位置嵌入组合到对应的训练好的字符嵌入后面,保持在局部窗口中的序列关系;位置嵌入的维度等于窗口大小k,位置嵌入中与字符在窗口中的位置对应的那一维的值是1,其他维的值是0;
在大小为k的窗口内应用局部注意力,捕获目标字符和窗口内每个字符间的关系;设隐层维度为dh,对于第j个字符,局部注意力将所有的组合嵌入
Figure FDA0002486991290000023
作为输入,输出对应的隐向量
Figure FDA0002486991290000024
隐向量的计算方式为
Figure FDA0002486991290000025
Figure FDA0002486991290000026
s(xj,xk)=vTtanh(W1xj+W2xk) (6)
其中
Figure FDA0002486991290000027
依次使用窗口大小为k、包含dh个卷积核的卷积神经网络(CNN)和一个sum-pooling层进行处理,得到
Figure FDA0002486991290000028
Figure FDA0002486991290000029
其中
Figure FDA0002486991290000031
Figure FDA0002486991290000032
*代表元素乘,
Figure FDA0002486991290000033
是隐向量
Figure FDA0002486991290000034
的组合;
然后,使用一个双向门控循环单元(BiGRU)处理
Figure FDA0002486991290000035
Figure FDA0002486991290000036
Figure FDA0002486991290000037
是BiGRU前一时刻的隐状态,
Figure FDA0002486991290000038
是参数;
最后,经过一个全局注意力层的处理得到
Figure FDA0002486991290000039
作为输出;
Figure FDA00024869912900000310
Figure FDA00024869912900000311
其中
Figure FDA00024869912900000312
与前面的相同。
CN202010394579.XA 2020-05-11 2020-05-11 融合局部-全局字符级关联特征的中文命名实体识别方法 Pending CN111651993A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010394579.XA CN111651993A (zh) 2020-05-11 2020-05-11 融合局部-全局字符级关联特征的中文命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010394579.XA CN111651993A (zh) 2020-05-11 2020-05-11 融合局部-全局字符级关联特征的中文命名实体识别方法

Publications (1)

Publication Number Publication Date
CN111651993A true CN111651993A (zh) 2020-09-11

Family

ID=72346107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010394579.XA Pending CN111651993A (zh) 2020-05-11 2020-05-11 融合局部-全局字符级关联特征的中文命名实体识别方法

Country Status (1)

Country Link
CN (1) CN111651993A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632993A (zh) * 2020-11-27 2021-04-09 浙江工业大学 一种基于卷积注意力网络的电力计量实体识别模型的分类方法
CN112765319A (zh) * 2021-01-20 2021-05-07 中国电子信息产业集团有限公司第六研究所 一种文本的处理方法、装置、电子设备及存储介质
CN112926324A (zh) * 2021-02-05 2021-06-08 昆明理工大学 融合词典与对抗迁移的越南语事件实体识别方法
CN116151241A (zh) * 2023-04-19 2023-05-23 湖南马栏山视频先进技术研究院有限公司 一种实体识别方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170060835A1 (en) * 2015-08-27 2017-03-02 Xerox Corporation Document-specific gazetteers for named entity recognition
CN108615036A (zh) * 2018-05-09 2018-10-02 中国科学技术大学 一种基于卷积注意力网络的自然场景文本识别方法
CN109558487A (zh) * 2018-11-06 2019-04-02 华南师范大学 基于层次性多注意力网络的文档分类方法
CN109933801A (zh) * 2019-03-25 2019-06-25 北京理工大学 基于预测位置注意力的双向lstm命名实体识别方法
CN110032634A (zh) * 2019-04-17 2019-07-19 北京理工大学 一种基于多类型深度特征的中文命名实体识别方法
US20200065374A1 (en) * 2018-08-23 2020-02-27 Shenzhen Keya Medical Technology Corporation Method and system for joint named entity recognition and relation extraction using convolutional neural network

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170060835A1 (en) * 2015-08-27 2017-03-02 Xerox Corporation Document-specific gazetteers for named entity recognition
CN108615036A (zh) * 2018-05-09 2018-10-02 中国科学技术大学 一种基于卷积注意力网络的自然场景文本识别方法
US20200065374A1 (en) * 2018-08-23 2020-02-27 Shenzhen Keya Medical Technology Corporation Method and system for joint named entity recognition and relation extraction using convolutional neural network
CN109558487A (zh) * 2018-11-06 2019-04-02 华南师范大学 基于层次性多注意力网络的文档分类方法
CN109933801A (zh) * 2019-03-25 2019-06-25 北京理工大学 基于预测位置注意力的双向lstm命名实体识别方法
CN110032634A (zh) * 2019-04-17 2019-07-19 北京理工大学 一种基于多类型深度特征的中文命名实体识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张建全: "基于CNN和BiGRU-attention的互联网敏感实体识别方法", 《万学学术期刊数据库》 *
顾孙炎: "基于深度神经网络的中文命名实体识别研究", 《万方学术期刊数据库》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632993A (zh) * 2020-11-27 2021-04-09 浙江工业大学 一种基于卷积注意力网络的电力计量实体识别模型的分类方法
CN112765319A (zh) * 2021-01-20 2021-05-07 中国电子信息产业集团有限公司第六研究所 一种文本的处理方法、装置、电子设备及存储介质
CN112765319B (zh) * 2021-01-20 2021-09-03 中国电子信息产业集团有限公司第六研究所 一种文本的处理方法、装置、电子设备及存储介质
CN112926324A (zh) * 2021-02-05 2021-06-08 昆明理工大学 融合词典与对抗迁移的越南语事件实体识别方法
CN116151241A (zh) * 2023-04-19 2023-05-23 湖南马栏山视频先进技术研究院有限公司 一种实体识别方法及装置
CN116151241B (zh) * 2023-04-19 2023-07-07 湖南马栏山视频先进技术研究院有限公司 一种实体识别方法及装置

Similar Documents

Publication Publication Date Title
CN109657239B (zh) 基于注意力机制和语言模型学习的中文命名实体识别方法
CN110609891B (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN108009148B (zh) 基于深度学习的文本情感分类表示方法
CN111858931B (zh) 一种基于深度学习的文本生成方法
CN111651993A (zh) 融合局部-全局字符级关联特征的中文命名实体识别方法
CN112733541A (zh) 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN110033008B (zh) 一种基于模态变换与文本归纳的图像描述生成方法
CN110968660B (zh) 基于联合训练模型的信息抽取方法和系统
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN112541356B (zh) 一种生物医学命名实体识别的方法和系统
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN112069831A (zh) 基于bert模型和增强混合神经网络的不实信息检测方法
CN111078833A (zh) 一种基于神经网络的文本分类方法
CN110781290A (zh) 一种长篇章结构化文本摘要提取方法
CN110851594A (zh) 一种基于多通道深度学习模型的文本分类方法及其装置
CN110134950B (zh) 一种字词结合的文本自动校对方法
CN111476024A (zh) 一种文本分词方法、装置及模型训练方法
CN113361278B (zh) 一种基于数据增强与主动学习的小样本命名实体识别方法
CN114417872A (zh) 一种合同文本命名实体识别方法及系统
CN109670169B (zh) 一种基于特征提取的深度学习情感分类方法
CN114048314A (zh) 一种自然语言隐写分析方法
CN117610567A (zh) 一种基于ERNIE3.0_Att_IDCNN_BiGRU_CRF的命名实体识别算法
Di et al. Design of natural language model based on BiGRU and attention mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200911

RJ01 Rejection of invention patent application after publication