CN108460013A - 一种基于细粒度词表示模型的序列标注模型 - Google Patents
一种基于细粒度词表示模型的序列标注模型 Download PDFInfo
- Publication number
- CN108460013A CN108460013A CN201810120922.4A CN201810120922A CN108460013A CN 108460013 A CN108460013 A CN 108460013A CN 201810120922 A CN201810120922 A CN 201810120922A CN 108460013 A CN108460013 A CN 108460013A
- Authority
- CN
- China
- Prior art keywords
- character
- vector
- information
- word
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于细粒度词表示模型的序列标注模型,用于进行序列标注任务,属于计算机应用及自然语言处理领域。本发明的模型结构主要由特征表示层、BiLSTM和CRF层3部分构成。利用该模型进行序列标注任务时,首先提出一种基于注意力机制的字符级词表示模型Finger来融合形态学信息和单词的字符信息,然后由Finger与BiLSTM‑CRF模型共同完成序列标注任务,最终该方法以端到端、无任何特征工程形式在CoNLL 2003数据集上取得了F1为91.09%的结果。实验表明本发明设计的Finger模型显著提升序列标注系统的召回率,从而使得模型的识别能力显著提升。
Description
技术领域
本发明属于计算机应用及自然语言处理领域,涉及一种基于注意力机制的字符级模型及其在序列标注任务的应用。本发明提出了一种基于细粒度词表示模型的序列标注模型。主要创新在于设计了一种基于注意力机制的细粒度词表示模型来更精准、全局、动态地刻画单词的形态学信息,进而提出了基于该词表示模型的序列标注模型。该模型不仅具有较高的序列标注能力,而且无需特征工程,同时具有很强的可解释性。
背景技术
词性标注(Part-of-Speech Tagging)、命名实体识别(Named EntityRecognition,NER)等序列标注任务是自然语言处理领域的基础工作。以NER为例,其主要任务是识别文本中的人名、地名、组织机构名等专有名词和有意义的时间、日期等短语。序列标注任务作为信息抽取中重要的组成部分,其识别效果对于后续的机器翻译等任务有很大影响。
目前序列标注任务主要模型分为传统的统计机器学习模型和神经网络模型两类。常见的统计模型主要有隐马尔可夫模型(Hidden Markov Model,HMM)和条件随机场(Conditional Random Field,CRF)等浅层模型,其中CRF模型广泛应用于各种序列标注任务中,并取得了不错的效果。近年来,深度学习在自然语言处理领域中取得了重大的突破。与传统机器学习方法相比,神经网络模型在序列标注任务中取得了更好的结果。神经网络方法在使用大规模的未标注语料进行词向量训练,通过将预训练词向量输入到卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)等模型,实现了端到端的训练。在基于神经网络方法的NER任务中,Collobert等人采用CNN进行特征抽取,同时提出了一种句级对数似然函数(Sentence-level log-likelihood),通过融合其它特征取得了不错的结果。Huang等人提出了BiLSTM-CRF模型,同时还融合了其他语言学特征以提升模型性能。在上述方法中,浅层模型采用了特征工程,但在其他领域和语言中泛化能力不佳;大部分神经网络模型尽管采用了语义丰富的词向量,自动学习任务相关的特征表示,但是没有考虑单词的结构信息,导致形态学信息缺失的问题。如何使模型能根据当前的任务自动学习形态学上的信息,从而提升实体识别性能成为近期研究的热点。
在目前的序列标注任务中,研究自动学习词形信息的工作主要有Lample等人的双向长短时记忆网络(Bi-directional Long Short-Term Memory network,BiLSTM)和Chiu等人的CNN。Lample等人采用两个BiLSTM分别自动学习词级和字符级表示,在命名实体识别任务中取得了与先进水平可比的结果。Chiu等人提出采用CNN自动学习字符级表示,在一定程度上缓解了模型对于特征工程的依赖,同时还融合了由两个公开的外部资源构造的词典特征,在CoNLL 2003英文NER语料上取得了F1为91.62%的目前最先进结果。尽管上述字符级表示模型在命名实体识别任务中取得了较好的进展,但是两者在理论上均无法全局、动态地定量表示单词内各字符在字符级词向量中的贡献。如何能全局、动态地定量刻画词内各字符的贡献以期产生一种更好的字符级表达方式是本发明的核心内容。
近年来,注意力(Attention)机制广泛应用于机器翻译等自然语言处理领域中。在NER任务中,Rei等人采用一种类似门机制的Attention模型动态地选择词级信息和字符级信息作为模型的输入,相比于仅有词向量作为输入的方法,该方法在多个数据集上有了显著提升。Bharadwaj等人通过Attention机制针对输入单词的语义信息与词内字符信息之间的关联性进行全局性地建模,从而得到该单词的上下文表示。尽管Attention机制开始在NER任务中取得了一定的进展,但如何将Attention机制的动态性和全局性有效地融入字符级模型有待进一步探索。
综合上述情况和近期Attention机制在自然语言处理领域上取得的进展,本发明提出了一种基于Attention机制的细粒度字符级词表示模型(Fine-grained character-level word representation model,Finger)。Finger根据Attention机制产生的概率分布,重点关注对于单词的形态学信息表示起到关键作用的个别字符,从而充分捕获词内的结构信息,进而有助于提升系统的识别效果。在此基础上,我们结合BiLSTM-CRF模型构建了Finger-BiLSTM-CRF模型进行实体识别任务。该模型是基于BiLSTM-CRF模型的改进,结合解释性极强的Attention机制,构成了一种完全端到端、无任何特征工程的序列标注系统。
发明内容
本发明要解决的技术问题是如何通过字符级表示模型自动地、动态地、全局地学习形态学信息,其关键点在于如何合理利用注意力机制,从而得到细粒度的字符级词表示,进而联合BiLSTM-CRF模型进行序列标注任务。
本发明的技术方案:
一种基于细粒度词表示模型的序列标注模型,一种完全基于Attention机制的字符级词表示模型Finger来替代BiLSTM、CNN字符级模型,将Finger作为BiLSTM-CRF模型的扩展,构造了新的命名实体识别模型Finger-BiLSTM-CRF;该模型的结构见图1所示,主要由特征表示层、BiLSTM和CRF层3部分构成;
(1)特征表示层:主要由词向量层和字符特征层组成;字符特征层由字符向量层和构建在字符向量层之上的基于注意力机制的Finger模型组成;词向量层和字符向量层分别接受单词和字符作为输入,分别将离散高维的独热表示映射到各自的稠密连续的低维特征空间中;Finger则将单词转换为字符序列表示,通过Attention机制建立形态学信息与字符信息间的关联,构成与词内结构相关的字符级向量;最后,将词向量和字符级向量进行拼接以表示单词在特定语义空间下的特征;
(2)BiLSTM:由正向和反向的长短时记忆网络(Long Short-Term Memory,LSTM)组成;正向和反向LSTM接收特征表示层的输出特征作为输入,分别编码当前时刻的上文和下文信息;两者的编码信息合并构成待解码的得分信息;
(3)CRF:CRF层接受BiLSTM的输出得分作为输入,同时引入转移得分矩阵,根据序列得分选择全局最优的标签序列;
整个模型既融合了序列标注任务所需的词形信息,有助于模型对于实体的判断,又结合了BiLSTM对于单词的上下文信息的表示能力,还保留CRF层求解标签序列的全局最优解的能力,从而为模型产生最优结果创造了可能。
一种采用序列标注模型进行序列标注任务的方法,步骤如下:
第一步,特征表示阶段
特征表示层将输入的单词序列映射为实值的特征向量,特征向量捕获单词的句法信息、语义信息和形态学信息;定义一个固定大小的词典Vwrd和一个固定大小的字符集Vchr;给定长度为N的句子{w1,w2,...,wN},将句子中每个单词wn映射为由词向量和字符级向量拼接而成的词表示其中词向量捕获单词的句法信息和语义信息,字符级向量表达词形信息;
1)词向量层
词向量矩阵中的第i列代表词典中第i个单词的词向量;如公式(1)所示,通过矩阵-向量乘法将单词wn映射为向量
其中,向量是维数为|Vwrd|的独热(one-hot)表示;矩阵Wwrd为待学习参数,词向量维度dwrd为超参数;
2)字符向量层
给定一个由M个字符{c1,c2,...,cM}构成的单词wn,先将每个字符cm映射为字符向量和词向量层的表示过程是相同的,字符向量矩阵中的第j列代表字符集中的第j个字符的字符向量;如公式(2)所示,通过矩阵-向量乘法将字符cm映射为向量
其中,向量是长度为|Vchr|的独热(one-hot)表示;矩阵Wchr为待学习参数,词向量维度dchr为超参数;
单词的字符序列经过上述的线性映射,生成字符向量序列作为后续模型的输入;
3)Finger模型
词向量的出现减少了模型对于特征工程的依赖,但由此产生了未登录词问题和形态学信息缺失问题。尽管作为字符级表示模型的BiLSTM和CNN均能通过模型学习,捕获单词的结构信息,弥补了信息缺失的问题,解决了未登录词问题。尽管BiLSTM能捕获单词的词缀信息,但无法明确指出哪些字符构成字符表示;尽管CNN捕获了单词的n-gram信息,但无法动态地表示n-gram中各个字符的贡献。
为了更好的编码单词的形态学特征,本发明提出一种基于Attention机制的细粒度字符级词表示模型Finger。Finger采用Attention机制找到适合任务的字符级词表示,该过程可以理解为形态学信息编码过程,即引入待学习的形态学信息参数,针对词形信息与字符信息的关联性进行建模,通过训练赋予与任务相关的字符以较高的权重,而降低其它无关字符的权重。在避免人工提取词缀信息的同时,捕获了单词内全局的、非线性的形态学信息。该模型将BiLSTM对于词形特征的定性表示和CNN的静态表示转变为全局动态的定量刻画。
如图2所示,首先引入一个形态学信息矩阵finu表示形态学特征类别数,mk表示第k类形态学信息特征向量;同时,采用公式(3)计算相关性得分向量Gk,通过双线性操作(Bilinear Operation)来捕获形态学信息mk与输入字符序列矩阵C之间的关联信息:
Gk=mk TUC(3)
其中,U是待训练权值矩阵;
随后,根据公式(4)来处理相关性得分向量Gk,以获得该类形态学信息的Attention权重向量αk:
其中Gk,j,αk,j分别表示形态学信息mk与输入的第j个字符间的相关性得分和对应权重;
接着,利用公式(5)将Attention权重向量αk和输入字符序列向量C相乘来表示形态学上强调的字符表示:
然后,根据公式(6),通过一个非线性变换来表示第i类形态学特征对应的字符表示:
其中,非线性激活函数f为双曲正切函数;
最后,构成单词wn的字符级向量
第二步,编码阶段
循环神经网络是一种时间序列模型,具有保持历史信息的能力,理论上能根据长距离特征来推测当前输出,但在实际中,RNN因为梯度消失和梯度爆炸而无法学习到历史信息。为了解决长距离依赖问题,Hochreiter等人设计了一种LSTM单元来替换原来RNN的内部实现,该单元采用了门机制来控制信息的传递,同时引入记忆单元,保证历史信息的更替。结果显示,LSTM能很好地解决长距离依赖问题。本发明中采用的LSTM实现如下:
it=σ(Wxixt+Whiht-1+Wcict-1+bi) (7)
ct=(1-it)⊙ct-1+it⊙tanh(Wxcxt+Whcht-1+bc) (8)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo) (9)
ht=ot⊙tanh(ct) (10)
其中,W为层间的权重矩阵,b为偏置向量,σ为按位sigmoid函数,i,o和c分别对应输入门、输出门和记忆单元;⊙表示按位乘法;
为了充分考虑序列中的上下文信息,本发明选择BiLSTM进行上下文信息编码;BiLSTM由两个独立的LSTM构成,其中一个LSTM在某一时刻t沿着正向时序获得上文信息另一个LSTM沿着逆向时序获得下文信息将每个时刻上的两个LSTM的隐藏层向量连接起来,形成BiLSTM在该时刻的输出ht表示当前时刻t的上下文信息;
第三步,解码阶段
通常在预测阶段采用Softmax分类器解决多分类问题,但Softmax分类器在序列标注问题中没有考虑到标签之间的依存关系。例如,在IOBES标注方式下,标注器若能正确学得模型,那么I-PER的后继标签不能为B-ORG或I-LOC等错误标签,可能的正确标注应该为I-PER或E-PER。
鉴于上述情况,本发明采用Collobert提出的句级对数似然函数,也就是CRF层。该方法考虑标签序列的全局信息,具体细节如下:
假定引入转移得分矩阵A,矩阵元素Ai,j表示标签i转移到标签j的转移得分,令y0,yn+1为句中的起始标签和终止标签,标签种类为k,则设句子长度为n,则输出层的得分矩阵为矩阵元素Pi,j表示第i个词在第j个标签下的输出得分;
给定输入句子X=(x1,x2,...,xn),输出标签序列y=(y1,y2,...yn),则该标签序列的总得分为
对所有可能的序列路径进行归一化,产生关于输出序列y的概率分布:
在训练过程中,最大化关于正确标签序列y*的对数概率:
从上式可知:采用句级似然函数的目的是鼓励模型生成正确的标签序列。在解码阶段,预测总得分最高的序列作为最优序列,即:
在预测阶段,本发明采用维特比算法来求解最优序列。
本发明的有益效果:以序列标注任务中经典的实体识别任务为例,由于引入Finger模型,整个模型对于单词的边界判断有了很大提升,表明Finger作为字符级模型的有效性;而在实验过程中对于实体内各单词的首字母均呈现较高权重,这和我们对于命名实体特征的认知保持高度一致,表明本发明设计的Finger模型不同于BiLSTM和CNN,该模型通过Attention机制,展现了良好的可解释能力,能定量表示词内各字符对于字符级词表示的贡献程度,所呈现的词表示对于NER系统的实体识别能力有较大的提升。
附图说明
图1是Finger-BiLSTM-CRF模型结构。
图2是Finger结构。
具体实施方式
所论述的具体实施例仅用于说明本发明的实现方式,而不限制本发明的范围。以下结合技术方案和附图详细说明本发明的实施例。
为了更为精确的表示单词的词形信息,本发明设计了一种基于Attention机制的细粒度词表示模型Finger,同时,通过联合Finger和BiLSTM-CRF模型进行序列标注任务,取得了理想的结果。
1.表示阶段
在表示阶段,给定由任意长的句子,通过公式(1)-(6)分别表示对应单词的词向量表示和字符向量表示,并通过拼接,连接单词序列的词向量和字符向量。
2.编码阶段
在编码阶段,BiLSTM将接收步骤1中单词序列表示作为输入,通过公式(7)-(10)编码每个单词的上下文信息。
3.解码阶段
在解码阶段,CRF将接收来自BiLSTM的上下文信息,通过公式(11)-(14)解码出整个输入序列的最优解序列。
目前,本发明在命名实体识别任务CoNLL 2003语料上取得了91.09%的结果,在词性标注语料Wall Street Journal上取得了97.36%的结果。
Claims (2)
1.一种基于细粒度词表示模型的序列标注模型,其特征在于,一种完全基于Attention机制的字符级词表示模型Finger来替代BiLSTM、CNN字符级模型,将Finger作为BiLSTM-CRF模型的扩展,构造了新的命名实体识别模型Finger-BiLSTM-CRF;该模型主要由特征表示层、BiLSTM和CRF层3部分构成;
(1)特征表示层:主要由词向量层和字符特征层组成;字符特征层由字符向量层和构建在字符向量层之上的基于注意力机制的Finger模型组成;词向量层和字符向量层分别接受单词和字符作为输入,分别将离散高维的独热表示映射到各自的稠密连续的低维特征空间中;Finger则将单词转换为字符序列表示,通过Attention机制建立形态学信息与字符信息间的关联,构成与词内结构相关的字符级向量;最后,将词向量和字符级向量进行拼接以表示单词在特定语义空间下的特征;
(2)BiLSTM:由正向和反向的长短时记忆网络LSTM组成;正向和反向LSTM接收特征表示层的输出特征作为输入,分别编码当前时刻的上文和下文信息;两者的编码信息合并构成待解码的得分信息;
(3)CRF:CRF层接受BiLSTM的输出得分作为输入,同时引入转移得分矩阵,根据序列得分选择全局最优的标签序列。
2.一种根据权利要求1所述的序列标注模型进行序列标注任务的方法,其特征在于,步骤如下:
第一步,特征表示阶段
特征表示层将输入的单词序列映射为实值的特征向量,特征向量捕获单词的句法信息、语义信息和形态学信息;定义一个固定大小的词典Vwrd和一个固定大小的字符集Vchr;给定长度为N的句子{w1,w2,...,wN},将句子中每个单词wn映射为由词向量和字符级向量拼接而成的词表示其中词向量捕获单词的句法信息和语义信息,字符级向量表达词形信息;
1)词向量层
词向量矩阵中的第i列代表词典中第i个单词的词向量;如公式(1)所示,通过矩阵-向量乘法将单词wn映射为向量
其中,向量是维数为|Vwrd|的独热表示;矩阵Wwrd为待学习参数,词向量维度dwrd为超参数;
2)字符向量层
给定一个由M个字符{c1,c2,...,cM}构成的单词wn,先将每个字符cm映射为字符向量和词向量层的表示过程是相同的,字符向量矩阵中的第j列代表字符集中的第j个字符的字符向量;如公式(2)所示,通过矩阵-向量乘法将字符cm映射为向量
其中,向量是长度为|Vchr|的独热表示;矩阵Wchr为待学习参数,词向量维度dchr为超参数;
单词的字符序列经过上述的线性映射,生成字符向量序列作为后续模型的输入;
3)Finger模型
首先引入一个形态学信息矩阵finu表示形态学特征类别数,mk表示第k类形态学信息特征向量;同时,采用公式(3)计算相关性得分向量Gk,通过双线性操作来捕获形态学信息mk与输入字符序列矩阵C之间的关联信息:
Gk=mk TUC (3)
其中,U是待训练权值矩阵;
随后,根据公式(4)来处理相关性得分向量Gk,以获得该类形态学信息的Attention权重向量αk:
其中Gk,j,αk,j分别表示形态学信息mk与输入的第j个字符间的相关性得分和对应权重;
接着,利用公式(5)将Attention权重向量αk和输入字符序列向量C相乘来表示形态学上强调的字符表示:
然后,根据公式(6),通过一个非线性变换来表示第i类形态学特征对应的字符表示:
其中,非线性激活函数f为双曲正切函数;
最后,构成单词wn的字符级向量
第二步,编码阶段
采用LSTM实现如下:
it=σ(Wxixt+Whiht-1+Wcict-1+bi) (7)
ct=(1-it)⊙ct-1+it⊙tanh(Wxcxt+Whcht-1+bc) (8)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo) (9)
ht=ot⊙tanh(ct) (10)
其中,W为层间的权重矩阵,b为偏置向量,σ为按位sigmoid函数,i,o和c分别对应输入门、输出门和记忆单元;⊙表示按位乘法;
为了充分考虑序列中的上下文信息,选择BiLSTM进行上下文信息编码;BiLSTM由两个独立的LSTM构成,其中一个LSTM在某一时刻t沿着正向时序获得上文信息另一个LSTM沿着逆向时序获得下文信息将每个时刻上的两个LSTM的隐藏层向量连接起来,形成BiLSTM在该时刻的输出ht表示当前时刻t的上下文信息;
第三步,解码阶段
采用Collobert提出的句级对数似然函数,即CRF层,并考虑标签序列的全局信息,具体细节如下:
设定引入转移得分矩阵A,矩阵元素Ai,j表示标签i转移到标签j的转移得分,令y0,yn+1为句中的起始标签和终止标签,标签种类为k,则设句子长度为n,则输出层的得分矩阵为矩阵元素Pi,j表示第i个词在第j个标签下的输出得分;
给定输入句子X=(x1,x2,...,xn),输出标签序列y=(y1,y2,...yn),则该标签序列的总得分为
对所有可能的序列路径进行归一化,产生关于输出序列y的概率分布:
在训练过程中,最大化关于正确标签序列y*的对数概率:
从上式可知:采用句级似然函数的目的是鼓励模型生成正确的标签序列;在解码阶段,预测总得分最高的序列作为最优序列,即:
在预测阶段,采用维特比算法来求解最优序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810120922.4A CN108460013B (zh) | 2018-01-30 | 2018-01-30 | 一种基于细粒度词表示模型的序列标注模型及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810120922.4A CN108460013B (zh) | 2018-01-30 | 2018-01-30 | 一种基于细粒度词表示模型的序列标注模型及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108460013A true CN108460013A (zh) | 2018-08-28 |
CN108460013B CN108460013B (zh) | 2021-08-20 |
Family
ID=63239790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810120922.4A Active CN108460013B (zh) | 2018-01-30 | 2018-01-30 | 一种基于细粒度词表示模型的序列标注模型及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108460013B (zh) |
Cited By (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241377A (zh) * | 2018-08-30 | 2019-01-18 | 山西大学 | 一种基于深度学习话题信息增强的文本文档表示方法和装置 |
CN109388404A (zh) * | 2018-10-10 | 2019-02-26 | 北京智能管家科技有限公司 | 一种路径解码方法、装置、计算机设备及存储介质 |
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
CN109522558A (zh) * | 2018-11-21 | 2019-03-26 | 金现代信息产业股份有限公司 | 一种基于深度学习的中文错字校正方法 |
CN109543151A (zh) * | 2018-10-31 | 2019-03-29 | 昆明理工大学 | 一种提高老挝语词性标注准确率的方法 |
CN109697285A (zh) * | 2018-12-13 | 2019-04-30 | 中南大学 | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 |
CN109783812A (zh) * | 2018-12-28 | 2019-05-21 | 中国科学院自动化研究所 | 基于自注意力机制的中文命名实体识别方法及装置 |
CN109918503A (zh) * | 2019-01-29 | 2019-06-21 | 华南理工大学 | 基于动态窗口自注意力机制提取语义特征的槽填充方法 |
CN110032739A (zh) * | 2019-04-18 | 2019-07-19 | 清华大学 | 中文电子病历命名实体抽取方法及系统 |
CN110110042A (zh) * | 2019-03-21 | 2019-08-09 | 昆明理工大学 | 基于cnn+blstm+crf的老挝语复杂人名地名实体识别方法 |
CN110162635A (zh) * | 2019-05-28 | 2019-08-23 | 广东工业大学 | 一种文本中全局特征的提取方法、系统及相关装置 |
CN110162749A (zh) * | 2018-10-22 | 2019-08-23 | 哈尔滨工业大学(深圳) | 信息提取方法、装置、计算机设备及计算机可读存储介质 |
CN110334339A (zh) * | 2019-04-30 | 2019-10-15 | 华中科技大学 | 一种基于位置感知自注意力机制的序列标注模型与标注方法 |
CN110442860A (zh) * | 2019-07-05 | 2019-11-12 | 大连大学 | 基于时间卷积网络的命名实体识别方法 |
CN110472248A (zh) * | 2019-08-22 | 2019-11-19 | 广东工业大学 | 一种中文文本命名实体的识别方法 |
CN110688853A (zh) * | 2019-08-12 | 2020-01-14 | 平安科技(深圳)有限公司 | 序列标注方法、装置、计算机设备和存储介质 |
CN110750992A (zh) * | 2019-10-09 | 2020-02-04 | 吉林大学 | 命名实体识别方法、装置、电子设备及介质 |
CN111079418A (zh) * | 2019-11-06 | 2020-04-28 | 科大讯飞股份有限公司 | 命名体识别方法、装置、电子设备和存储介质 |
CN111160031A (zh) * | 2019-12-13 | 2020-05-15 | 华南理工大学 | 一种基于词缀感知的社交媒体命名实体识别方法 |
CN111274829A (zh) * | 2020-02-07 | 2020-06-12 | 中国科学技术大学 | 一种利用跨语言信息的序列标注方法 |
CN111310470A (zh) * | 2020-01-17 | 2020-06-19 | 西安交通大学 | 一种融合字词特征的中文命名实体识别方法 |
CN111368542A (zh) * | 2018-12-26 | 2020-07-03 | 北京大学 | 一种基于递归神经网络的文本语言关联抽取方法和系统 |
CN111368526A (zh) * | 2020-03-03 | 2020-07-03 | 支付宝(杭州)信息技术有限公司 | 一种序列标注方法和系统 |
CN111428501A (zh) * | 2019-01-09 | 2020-07-17 | 北大方正集团有限公司 | 命名实体的识别方法、识别系统及计算机可读存储介质 |
CN111444720A (zh) * | 2020-03-30 | 2020-07-24 | 华南理工大学 | 一种英文文本的命名实体识别方法 |
CN111581974A (zh) * | 2020-04-27 | 2020-08-25 | 天津大学 | 一种基于深度学习的生物医学实体识别方法 |
CN111666758A (zh) * | 2020-04-15 | 2020-09-15 | 中国科学院深圳先进技术研究院 | 中文分词方法、训练设备以及计算机可读存储介质 |
CN111680669A (zh) * | 2020-08-12 | 2020-09-18 | 江西风向标教育科技有限公司 | 一种试题分割方法、系统及可读存储介质 |
CN111859963A (zh) * | 2019-04-08 | 2020-10-30 | 中移(苏州)软件技术有限公司 | 命名实体识别方法、设备、装置和计算机可读存储介质 |
CN111950278A (zh) * | 2019-05-14 | 2020-11-17 | 株式会社理光 | 一种序列标注方法、装置及计算机可读存储介质 |
WO2021017268A1 (zh) * | 2019-07-30 | 2021-02-04 | 平安科技(深圳)有限公司 | 基于双架构的序列标注方法、装置和计算机设备 |
CN112651245A (zh) * | 2020-12-28 | 2021-04-13 | 南京邮电大学 | 序列标注模型及序列标注方法 |
CN112989811A (zh) * | 2021-03-01 | 2021-06-18 | 哈尔滨工业大学 | 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法 |
CN113033192A (zh) * | 2019-12-09 | 2021-06-25 | 株式会社理光 | 一种序列标注的训练方法、装置及计算机可读存储介质 |
CN113255294A (zh) * | 2021-07-14 | 2021-08-13 | 北京邮电大学 | 命名实体识别模型训练方法、识别方法及装置 |
CN113377953A (zh) * | 2021-05-31 | 2021-09-10 | 电子科技大学 | 一种基于palc-dca模型的实体融合及分类方法 |
CN110866115B (zh) * | 2019-10-16 | 2023-08-08 | 平安科技(深圳)有限公司 | 序列标注方法、系统、计算机设备及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100829401B1 (ko) * | 2006-12-06 | 2008-05-15 | 한국전자통신연구원 | 세부분류 개체명 인식 장치 및 방법 |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN107092596A (zh) * | 2017-04-24 | 2017-08-25 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
CN107168957A (zh) * | 2017-06-12 | 2017-09-15 | 云南大学 | 一种中文分词方法 |
-
2018
- 2018-01-30 CN CN201810120922.4A patent/CN108460013B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100829401B1 (ko) * | 2006-12-06 | 2008-05-15 | 한국전자통신연구원 | 세부분류 개체명 인식 장치 및 방법 |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN107092596A (zh) * | 2017-04-24 | 2017-08-25 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
CN107168957A (zh) * | 2017-06-12 | 2017-09-15 | 云南大学 | 一种中文分词方法 |
Non-Patent Citations (2)
Title |
---|
冯艳红 等: "基于BLSTM的命名实体识别方法", 《计算机科学》 * |
林广和 等: "基于细粒度词表示的命名实体识别研究", 《中文信息学报》 * |
Cited By (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241377B (zh) * | 2018-08-30 | 2021-04-23 | 山西大学 | 一种基于深度学习话题信息增强的文本文档表示方法和装置 |
CN109241377A (zh) * | 2018-08-30 | 2019-01-18 | 山西大学 | 一种基于深度学习话题信息增强的文本文档表示方法和装置 |
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
CN109388404A (zh) * | 2018-10-10 | 2019-02-26 | 北京智能管家科技有限公司 | 一种路径解码方法、装置、计算机设备及存储介质 |
CN109388404B (zh) * | 2018-10-10 | 2022-10-18 | 北京如布科技有限公司 | 一种路径解码方法、装置、计算机设备及存储介质 |
CN110162749B (zh) * | 2018-10-22 | 2023-07-21 | 哈尔滨工业大学(深圳) | 信息提取方法、装置、计算机设备及计算机可读存储介质 |
CN110162749A (zh) * | 2018-10-22 | 2019-08-23 | 哈尔滨工业大学(深圳) | 信息提取方法、装置、计算机设备及计算机可读存储介质 |
CN109543151A (zh) * | 2018-10-31 | 2019-03-29 | 昆明理工大学 | 一种提高老挝语词性标注准确率的方法 |
CN109543151B (zh) * | 2018-10-31 | 2021-05-25 | 昆明理工大学 | 一种提高老挝语词性标注准确率的方法 |
CN109522558A (zh) * | 2018-11-21 | 2019-03-26 | 金现代信息产业股份有限公司 | 一种基于深度学习的中文错字校正方法 |
CN109522558B (zh) * | 2018-11-21 | 2024-01-12 | 金现代信息产业股份有限公司 | 一种基于深度学习的中文错字校正方法 |
CN109697285A (zh) * | 2018-12-13 | 2019-04-30 | 中南大学 | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 |
CN111368542A (zh) * | 2018-12-26 | 2020-07-03 | 北京大学 | 一种基于递归神经网络的文本语言关联抽取方法和系统 |
CN109783812A (zh) * | 2018-12-28 | 2019-05-21 | 中国科学院自动化研究所 | 基于自注意力机制的中文命名实体识别方法及装置 |
CN111428501A (zh) * | 2019-01-09 | 2020-07-17 | 北大方正集团有限公司 | 命名实体的识别方法、识别系统及计算机可读存储介质 |
CN109918503A (zh) * | 2019-01-29 | 2019-06-21 | 华南理工大学 | 基于动态窗口自注意力机制提取语义特征的槽填充方法 |
CN109918503B (zh) * | 2019-01-29 | 2020-12-22 | 华南理工大学 | 基于动态窗口自注意力机制提取语义特征的槽填充方法 |
CN110110042A (zh) * | 2019-03-21 | 2019-08-09 | 昆明理工大学 | 基于cnn+blstm+crf的老挝语复杂人名地名实体识别方法 |
CN111859963A (zh) * | 2019-04-08 | 2020-10-30 | 中移(苏州)软件技术有限公司 | 命名实体识别方法、设备、装置和计算机可读存储介质 |
CN110032739A (zh) * | 2019-04-18 | 2019-07-19 | 清华大学 | 中文电子病历命名实体抽取方法及系统 |
CN110032739B (zh) * | 2019-04-18 | 2021-07-13 | 清华大学 | 中文电子病历命名实体抽取方法及系统 |
CN110334339A (zh) * | 2019-04-30 | 2019-10-15 | 华中科技大学 | 一种基于位置感知自注意力机制的序列标注模型与标注方法 |
CN111950278A (zh) * | 2019-05-14 | 2020-11-17 | 株式会社理光 | 一种序列标注方法、装置及计算机可读存储介质 |
CN110162635A (zh) * | 2019-05-28 | 2019-08-23 | 广东工业大学 | 一种文本中全局特征的提取方法、系统及相关装置 |
CN110442860A (zh) * | 2019-07-05 | 2019-11-12 | 大连大学 | 基于时间卷积网络的命名实体识别方法 |
WO2021017268A1 (zh) * | 2019-07-30 | 2021-02-04 | 平安科技(深圳)有限公司 | 基于双架构的序列标注方法、装置和计算机设备 |
CN110688853A (zh) * | 2019-08-12 | 2020-01-14 | 平安科技(深圳)有限公司 | 序列标注方法、装置、计算机设备和存储介质 |
CN110472248A (zh) * | 2019-08-22 | 2019-11-19 | 广东工业大学 | 一种中文文本命名实体的识别方法 |
CN110750992A (zh) * | 2019-10-09 | 2020-02-04 | 吉林大学 | 命名实体识别方法、装置、电子设备及介质 |
CN110866115B (zh) * | 2019-10-16 | 2023-08-08 | 平安科技(深圳)有限公司 | 序列标注方法、系统、计算机设备及计算机可读存储介质 |
CN111079418B (zh) * | 2019-11-06 | 2023-12-05 | 科大讯飞股份有限公司 | 命名体识别方法、装置、电子设备和存储介质 |
CN111079418A (zh) * | 2019-11-06 | 2020-04-28 | 科大讯飞股份有限公司 | 命名体识别方法、装置、电子设备和存储介质 |
CN113033192A (zh) * | 2019-12-09 | 2021-06-25 | 株式会社理光 | 一种序列标注的训练方法、装置及计算机可读存储介质 |
CN113033192B (zh) * | 2019-12-09 | 2024-04-26 | 株式会社理光 | 一种序列标注的训练方法、装置及计算机可读存储介质 |
CN111160031A (zh) * | 2019-12-13 | 2020-05-15 | 华南理工大学 | 一种基于词缀感知的社交媒体命名实体识别方法 |
CN111310470A (zh) * | 2020-01-17 | 2020-06-19 | 西安交通大学 | 一种融合字词特征的中文命名实体识别方法 |
CN111310470B (zh) * | 2020-01-17 | 2021-11-19 | 西安交通大学 | 一种融合字词特征的中文命名实体识别方法 |
CN111274829A (zh) * | 2020-02-07 | 2020-06-12 | 中国科学技术大学 | 一种利用跨语言信息的序列标注方法 |
CN111274829B (zh) * | 2020-02-07 | 2023-06-16 | 中国科学技术大学 | 一种利用跨语言信息的序列标注方法 |
CN111368526A (zh) * | 2020-03-03 | 2020-07-03 | 支付宝(杭州)信息技术有限公司 | 一种序列标注方法和系统 |
CN111368526B (zh) * | 2020-03-03 | 2023-04-25 | 支付宝(杭州)信息技术有限公司 | 一种序列标注方法和系统 |
CN111444720A (zh) * | 2020-03-30 | 2020-07-24 | 华南理工大学 | 一种英文文本的命名实体识别方法 |
CN111666758B (zh) * | 2020-04-15 | 2022-03-22 | 中国科学院深圳先进技术研究院 | 中文分词方法、训练设备以及计算机可读存储介质 |
CN111666758A (zh) * | 2020-04-15 | 2020-09-15 | 中国科学院深圳先进技术研究院 | 中文分词方法、训练设备以及计算机可读存储介质 |
CN111581974A (zh) * | 2020-04-27 | 2020-08-25 | 天津大学 | 一种基于深度学习的生物医学实体识别方法 |
CN111680669A (zh) * | 2020-08-12 | 2020-09-18 | 江西风向标教育科技有限公司 | 一种试题分割方法、系统及可读存储介质 |
CN112651245A (zh) * | 2020-12-28 | 2021-04-13 | 南京邮电大学 | 序列标注模型及序列标注方法 |
CN112989811A (zh) * | 2021-03-01 | 2021-06-18 | 哈尔滨工业大学 | 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法 |
CN113377953A (zh) * | 2021-05-31 | 2021-09-10 | 电子科技大学 | 一种基于palc-dca模型的实体融合及分类方法 |
CN113255294A (zh) * | 2021-07-14 | 2021-08-13 | 北京邮电大学 | 命名实体识别模型训练方法、识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108460013B (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108460013A (zh) | 一种基于细粒度词表示模型的序列标注模型 | |
Du et al. | Explicit interaction model towards text classification | |
CN111488726B (zh) | 基于指针网络的非结构文本抽取多任务联合训练方法 | |
CN112733541A (zh) | 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法 | |
CN110532557B (zh) | 一种无监督的文本相似度计算方法 | |
CN108829801A (zh) | 一种基于文档级别注意力机制的事件触发词抽取方法 | |
CN110020438A (zh) | 基于序列识别的企业或组织中文名称实体消歧方法和装置 | |
CN107133211A (zh) | 一种基于注意力机制的作文评分方法 | |
CN112417880A (zh) | 一种面向法院电子卷宗的案情信息自动抽取方法 | |
Xia | Research on statistical machine translation model based on deep neural network | |
Zhu et al. | Dual learning for semi-supervised natural language understanding | |
CN109189862A (zh) | 一种面向科技情报分析的知识库构建方法 | |
CN110162789A (zh) | 一种基于汉语拼音的词表征方法及装置 | |
CN109086269A (zh) | 一种基于语义资源词表示和搭配关系的语义双关语识别方法 | |
CN112784604A (zh) | 一种基于实体边界网络的实体链接方法 | |
CN111090981A (zh) | 基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及系统 | |
CN114611492B (zh) | 一种文本顺滑方法、系统和计算机设备 | |
Li et al. | Integrating language model and reading control gate in BLSTM-CRF for biomedical named entity recognition | |
CN112905736A (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
Ali et al. | SiNER: A large dataset for Sindhi named entity recognition | |
Cheng et al. | Integration of automatic sentence segmentation and lexical analysis of ancient Chinese based on BiLSTM-CRF model | |
CN112699685A (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
Zhao | Research and design of automatic scoring algorithm for english composition based on machine learning | |
Long et al. | A method of Chinese named entity recognition based on CNN-BiLSTM-CRF model | |
CN116049437A (zh) | 基于自标签与prompt的文档级低资源场景的要素抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |