CN113076751A - 命名实体识别方法及系统、电子设备和存储介质 - Google Patents

命名实体识别方法及系统、电子设备和存储介质 Download PDF

Info

Publication number
CN113076751A
CN113076751A CN202110220352.8A CN202110220352A CN113076751A CN 113076751 A CN113076751 A CN 113076751A CN 202110220352 A CN202110220352 A CN 202110220352A CN 113076751 A CN113076751 A CN 113076751A
Authority
CN
China
Prior art keywords
text
recognized
entity recognition
named entity
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110220352.8A
Other languages
English (en)
Inventor
李建强
刘雅琦
白骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110220352.8A priority Critical patent/CN113076751A/zh
Publication of CN113076751A publication Critical patent/CN113076751A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供一种命名实体识别方法及系统、电子设备和存储介质,其中,命名实体识别方法,包括:将待识别文本信息输入命名实体识别模型中,得到所述命名实体识别模型输出的实体识别结果;其中,所述命名实体识别模型由样本文本信息及对应的标签序列训练得到;所述文本信息包括:文本词向量序列;所述命名实体识别模型用于确定所述待识别文本信息对应的待识别文本特征序列和发射分数,基于门控‑条件随机场确定门控系数;基于所述发射分数、所述门控系数和转移分数,确定实体识别结果;所述门控系数为待识别文本特征序列中上一个时间步与当前时间步的相对预测置信度。能够有效的提高文本中存在实体比邻出现情况时的命名实体识别准确度。

Description

命名实体识别方法及系统、电子设备和存储介质
技术领域
本发明涉及深度学习技术领域,尤其涉及一种命名实体识别方法及系统、电子设备和存储介质。
背景技术
命名实体识别(Named Entity Recognition,简称NER)任务是要识别出文本中具有特定意义的实体,属于序列标注问题的范畴。
目前为止,大部分NER任务中都使用了条件随机场(conditional random field,简称CRF)作为模型的最后一步。CRF是基于发射分数和转移分数使用维特比算法解码出概率最高的预测标签序列,其中的转移分数约束使得最终的预测标签更加平滑,标签过渡更加自然合理。
在大部分场景下,CRF都能很好的识别出文本中“孤立”的实体,但当实体之间比邻出现时,实体的识别准确度却大幅降低,这其中一部分的原因是实体之间比邻时会存在错误传播问题,即前一个实体识别有误时,大概率会影响相邻实体的识别,从而导致识别准确度大幅降低。
因此,如何提供一种命名实体识别方法及系统、电子设备和存储介质,提高文本中存在实体比邻出现情况时的命名实体识别准确度,成为亟待解决的问题。
发明内容
针对现有技术中的缺陷,本发明提供一种命名实体识别方法及系统、电子设备和存储介质。
本发明提供一种命名实体识别方法,包括:
将待识别文本信息输入命名实体识别模型中,得到所述命名实体识别模型输出的实体识别结果;
其中,所述命名实体识别模型由样本文本信息及对应的标签序列训练得到;所述文本信息包括:文本词向量序列;
所述命名实体识别模型用于确定所述待识别文本信息对应的待识别文本特征序列和发射分数,基于门控-条件随机场确定门控系数;基于所述发射分数、所述门控系数和转移分数,确定实体识别结果;
所述门控系数为待识别文本特征序列中上一个时间步与当前时间步的相对预测置信度。
根据本发明提供的命名实体识别方法,所述命名实体识别模型包括:特征提取层、特征处理层、门控处理层和概率预测层;
所述特征提取层用于确定所述待识别文本词向量序列中各时间步的上下文特征,基于所述各时间步的上下文特征确定所述待识别文本特征序列;
所述特征处理层用于根据所述待识别文本特征序列确定各时间步对应的发射分数;
所述门控处理层用于根据所述待识别文本特征序列确定各个时间步的预测置信度,基于所述各个时间步的预测置信度确定所述门控系数;
所述概率预测层用于根据所述发射分数、所述转移分数和所述门控系数确定所述待识别文本对应的实体标签序列以及对应的概率,作为所述实体识别结果。
根据本发明提供的命名实体识别方法,所述将待识别文本信息输入命名实体识别模型中,得到所述命名实体识别模型输出的实体识别结果,具体包括:
将所述待识别文本词向量序列输入至所述特征提取层中,得到所述特征提取层输出的所述待识别文本特征序列;
将所述待识别文本特征序列输入至所述特征处理层中,得到所述特征处理层输出的所述各时间步对应的发射分数;
将所述待识别文本特征序列输入至所述门控处理层中,得到所述门控处理层输出的所述各个时间步的门控系数;
将所述发射分数、所述转移分数和所述门控系数输入至所述概率预测层中,得到所述概率预测层输出的实体识别结果。
根据本发明提供的命名实体识别方法,所述门控处理层包括:线性处理层和系数计算层;
所述线性处理层用于将所述待识别文本特征序列中当前时间步和上一时间步的待识别文本特征变换到维度1,并通过Sigmoid激活函数确定当前时间步和上一时间步的预测置信度;
所述系数计算层用于根据所述当前时间步和上一时间步的预测置信度,计算得到当前时间步的门控系数。
根据本发明提供的命名实体识别方法,所述特征提取层包括:隐藏信息提取层和特征序列确定层;
所述隐藏信息提取层用于确定所述待识别文本词向量序列中各时间步的词向量的前向信息和后向信息,根据前向信息和后向信息确定上下文特征;
所述特征序列确定层用于根据所述各时间步的上下文特征确定所述待识别文本特征序列。
根据本发明提供的命名实体识别方法,所述文本信息还包括:文本;
对应的,所述命名实体识别模型还包括:文本预处理层;
所述文本预处理层用于处理待识别文本,确定所述待识别文本对应的待识别文本词向量序列。
根据本发明提供的命名实体识别方法,所述命名实体识别模型还包括:识别结果输出层;
所述识别结果输出层用于确定所述实体标签序列中具有最佳输出概率的实体标签序列作为目标实体识别结果。
本发明还提供一种命名实体识别系统,包括:
文本识别单元,用于将待识别文本信息输入命名实体识别模型中,得到所述命名实体识别模型输出的实体识别结果;
其中,所述命名实体识别模型由样本文本信息及对应的标签序列训练得到;所述文本信息包括:文本词向量序列;
所述命名实体识别模型用于确定所述待识别文本信息对应的待识别文本特征序列和发射分数,基于门控-条件随机场确定门控系数;基于所述发射分数、所述门控系数和转移分数,确定实体识别结果;
所述门控系数为待识别文本特征序列中上一个时间步与当前时间步的相对预测置信度。
本发明还提供一种电子设备,包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如上述命名实体识别方法的各个步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述命名实体识别方法的各个步骤。
本发明提供的命名实体识别方法及系统、电子设备和存储介质,通过基于门控-条件随机场的命名实体识别模型加强在识别过程中对实体边界的判断,让门控系数决定标签发射分数和转移分数的比重,缓解由于错误的标签转移分数过大导致的错误传播问题,从而提高命名实体识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的命名实体识别方法流程图;
图2为本发明提供的命名实体识别模型结构示意图;
图3为本发明提供的命名实体识别系统结构示意图;
图4为本发明提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
中英文命名实体识别任务中,要准确识别一个实体,既要判断出实体的类型,也要判断出实体的边界。根据大量的实验数据显示,当用CRF进行序列预测时,命名实体识别任务的准确率往往取决于实体边界判断的准确率,也就是说实体边界的判断比实体类别的判断难得多。这其中一个原因就是,CRF是基于发射分数和转移分数使用维特比算法解码出概率最高的预测标签序列,其中的转移分数约束使得最终的预测标签更加平滑,标签过渡更加自然合理,但是当多个实体比邻出现,某个实体的发射分数误差较大时,转移分数的约束可能会使得相邻实体的预测结果也跟着出错,造成错误传播。
为了解决命名实体识别模型存在的错误传播问题,我们提出了一种基于门控-条件随机场(gate-conditional random field,简称GCRF)的命名实体识别方法。门控-条件随机场(GCRF)可以替换现有的使用条件随机场(CRF)的模型。
基于以上问题,本发明提供了一种基于门控条件随机场的命名实体识别方法来加强实体边界的判断,从而提高命名实体识别的准确率。基于门控-条件随机场的命名实体识别方法在进行命名实体识别时的详细方法步骤的说明如下。
图1为本发明提供的命名实体识别方法流程图,如图1所示,本发明提供一种命名实体识别方法,包括:
步骤S1,将待识别文本信息输入命名实体识别模型中,得到所述命名实体识别模型输出的实体识别结果;
其中,所述命名实体识别模型由样本文本信息及对应的标签序列训练得到;所述文本信息包括:文本词向量序列;
所述命名实体识别模型用于确定所述待识别文本信息对应的待识别文本特征序列和发射分数,基于门控-条件随机场确定门控系数;基于所述发射分数、所述门控系数和转移分数,确定实体识别结果;
所述门控系数为待识别文本特征序列中上一个时间步与当前时间步的相对预测置信度。
具体的,在步骤S1中,需要将待识别文本信息输入已经事先训练好的命名实体识别模型中,命名实体识别模型用于确定待识别文本信息对应的待识别文本特征序列和发射分数,基于门控-条件随机场确定待识别文本特征序列对应的门控系数,进而根据发射分数、转移分数和门控系数得到所述命名实体识别模型输出的实体识别结果。待识别文本信息包括:待识别文本词向量序列。
其中,在命名实体识别模型在进行文本信息的处理时,按照预设的规则将完整的文本信息分成多个时间步,门控系数即为待识别文本特征序列中上一个时间步与当前时间步的相对预测置信度。
需要说明的是,在进行待识别文本信息的识别之前,还需要预先训练好命名识别体模型,命名实体识别模型由样本文本信息及对应的标签序列训练得到,基于大量的样本确定模型的参数以及转移分数矩阵。样本文本信息包括:样本文本词向量序列。
其中,确定命名识别体模型已经训练好的判断条件,可以是确定根据命名识别体模型训练得到的参数对命名识别体模型进行更新确定命名识别体模型以收敛,将测试样本输入命名识别体模型中,确定命名识别体模型的输入的测试误差小于预设值,或确定命名识别体模型训练迭代的次数满足预设阈值。具体的方法可根据实际需求进行调整,本发明对此不做限定。
本发明提供的命名实体识别方法,通过基于门控-条件随机场的命名实体识别模型加强在识别过程中对实体边界的判断,让门控系数决定标签发射分数和转移分数的比重,缓解由于错误的标签转移分数过大导致的错误传播问题,从而提高命名实体识别的准确率。
图2为本发明提供的命名实体识别模型结构示意图,如图2所示,可选的,根据本发明提供的命名实体识别方法,所述命名实体识别模型包括:特征提取层、特征处理层、门控处理层和概率预测层;
所述特征提取层用于确定所述待识别文本词向量序列中各时间步的上下文特征,基于所述各时间步的上下文特征确定所述待识别文本特征序列;
所述特征处理层用于根据所述待识别文本特征序列确定各时间步对应的发射分数;
所述门控处理层用于根据所述待识别文本特征序列确定各个时间步的预测置信度,基于所述各个时间步的预测置信度确定所述门控系数;
所述概率预测层用于根据所述发射分数、所述转移分数和所述门控系数确定所述待识别文本对应的实体标签序列以及对应的概率,作为所述实体识别结果。
具体的,所述命名实体识别模型包括:特征提取层、特征处理层、门控处理层和概率预测层;
所述特征提取层用于确定所述待识别文本词向量序列中各时间步的上下文特征,将待识别文本中各时间步的上下文特征组合在一起,形成待识别文本特征序列。对于输入的待识别文本词向量序列{x1,x2,…xn}的条件下,记输出的上下文特征序列为{h1,h2,…,hn}。
需要说明的是,上下文特征(上下文信息)反应句子内部词之间的依赖关系,具体的提取方法可以构建正向的LSTM与反向的LSTM,分别提取正向和反向的特征信息,结合形成BiLSTM,能够有效的使用过去和将来的输入信息并提取上下文特征。还可以使用其他的特征提取方法,如:Bi-RNN,Transformer等,实际使用时的具体方法可根据实际情况进行选择,本发明对此不做限定。
所述特征处理层用于根据所述待识别文本特征序列确定各时间步对应的发射分数。
对单词的上下文特征进行线性变换并通过Softmax归一化得到模型预测的标签发射分数序列
Figure BDA0002954552250000083
其中,Et代表第t个时间步单词的标签发射分数,且Et∈Rm×1,m为标签种类的数量,We为归一化时的命名识别体模型参数。
Figure BDA0002954552250000081
Figure BDA0002954552250000082
记标签转移分数矩阵为T∈Rm×m
所述门控处理层用于根据待识别文本特征序列确定各个时间步的预测置信度,基于各个时间步的预测置信度确定门控系数。
待识别文本特征序列中不仅包含了相邻时间步的信息,还包括了预测倾向与预测置信度,基于待识别文本特征序列确各个时间步的预测置信度,计算相邻时间步中,上一时间步的预测置信度与上一时间步和当前时间步的预测置信度之和的比值作为门控系数。
概率预测层用于根据发射分数、转移分数和门控系数确定待识别文本对应的实体标签序列以及对应的概率,作为实体识别结果。
在进行待识别文本信息的识别之前,还需要预先训练好命名识别体模型,在模型训练时,计算命名实体识别模型在给定文本序列X时真实标签Y的预测概率并对其进行优化,真实标签Y的预测概率P(Y|X)的计算方法如式所示:
Figure BDA0002954552250000091
其中,真实标签序列
Figure BDA0002954552250000092
yt∈{l1,l2,···,lm}代表第t个单词对应的真实标签,Pn代表包括真实标签路径在内的从第1个单词到第n个单词的所有标签序列,对预测概率P(Y|X)求负对数似然得到模型的损失函数:
Figure BDA0002954552250000093
记标签转移分数矩阵为T∈Rm×m,得分s(X,Y)计算方法为:
Figure BDA0002954552250000094
其中,
Figure BDA0002954552250000095
为y1作为句首标签的转移分数,
Figure BDA0002954552250000096
为yt-1到yt的转移分数,
Figure BDA0002954552250000097
为作为句末标签的转移分数。
通过前向-后向算法来计算真实标签序列的输出概率,并通过优化算法优化输出概率,达到训练命名实体识别模型网络参数的目的。
相比于CRF网络,基于基于门控-条件随机场(GCRF)发射分数、转移分数和门控系数可以确定在待识别文本识别时,真实标签的预测概率,门控系数用于决定当前时间步上标签发射分数和标签转移分数的比重。能够有效缓解由于错误的标签转移分数过大导致的错误传播问题。
本发明提供的命名实体识别方法,基于门控-条件随机场的命名实体识别模型提取待识别文本信息的上下文特征序列,确定发射分数、转移分数和门控系数,让门控系数决定标签发射分数和转移分数的比重,加强在识别过程中对实体边界的判断,缓解由于错误的标签转移分数过大导致的错误传播问题,从而提高命名实体识别的准确率。
可选的,根据本发明提供的命名实体识别方法,所述将待识别文本信息输入命名实体识别模型中,得到所述命名实体识别模型输出的实体识别结果,具体包括:
将所述待识别文本词向量序列输入至所述特征提取层中,得到所述特征提取层输出的所述待识别文本特征序列;
将所述待识别文本特征序列输入至所述特征处理层中,得到所述特征处理层输出的所述各时间步对应的发射分数;
将所述待识别文本特征序列输入至所述门控处理层中,得到所述门控处理层输出的所述各个时间步的门控系数;
将所述发射分数、所述转移分数和所述门控系数输入至所述概率预测层中,得到所述概率预测层输出的实体识别结果。
具体的,在将待识别文本信息输入命名实体识别模型中,得到命名实体识别模型输出的实体识别结果,对待识别文本信息的具体处理步骤具体如下:
将待识别文本词向量序列{x1,x2,…xn}输入至特征提取层中,得到特征提取层输出的待识别文本特征序列{h1,h2,…,hn}。
将待识别文本特征序列{h1,h2,…,hn}输入至特征处理层中,得到特征处理层输出的各时间步对应的发射分数
Figure BDA0002954552250000101
(发射分数序列)和转移分数T∈Rm×m(转移分数矩阵)。
将待识别文本特征序列{h1,h2,…,hn}输入至门控处理层中,得到门控处理层输出的各个时间步的门控系数;gt表示时间步t时的门控系数。
将发射分数
Figure BDA0002954552250000102
训练得到的转移分数矩阵T∈Rm×m和门控系数gt输入至概率预测层中,得到概率预测层输出的实体识别结果。
需要说明的是,在对待识别文本信息进行命名实体识别之后,实体的识别结果具有若干种不同的可能,每一种可能性中实体标签序列以及对应的预测概率均不相同。可以选择将若有的可能性作为实体识别结果,也可以进一步进行筛选只输出部分结果,具体可根据实际需求进行调整,本发明对此不做限定。
本发明提供的命名实体识别方法,基于门控-条件随机场的命名实体识别模型提取待识别文本信息的上下文特征序列,确定发射分数、转移分数和门控系数,让门控系数决定标签发射分数和转移分数的比重,加强在识别过程中对实体边界的判断,缓解由于错误的标签转移分数过大导致的错误传播问题,从而提高命名实体识别的准确率。
可选的,根据本发明提供的命名实体识别方法,所述门控处理层包括:线性处理层和系数计算层;
所述线性处理层用于将所述待识别文本特征序列中当前时间步和上一时间步的待识别文本特征变换到维度1,并通过Sigmoid激活函数确定当前时间步和上一时间步的预测置信度;
所述系数计算层用于根据所述当前时间步和上一时间步的预测置信度,计算得到当前时间步的门控系数。
具体的,命名实体识别模型中的门控处理层可细分为线性处理层和系数计算层。
线性处理层用于将待识别文本特征序列中当前时间步和上一时间步的待识别文本特征变换到维度1,并通过Sigmoid激活函数将该降维变换后获得的实数的值域压缩到0-1之间,确定当前时间步和上一时间步的预测置信度。
对于时间步t时的预测置信度ct
Figure BDA0002954552250000111
其中,Wg为降维变换时的命名识别体模型参数。
根据时间步t时的预测置信度ct,以及时间步t-1的预测置信度ct-1确定时间步t时门控系数gt
Figure BDA0002954552250000121
在进行识别时,时间步t的转移门系数gt代表了时间步t-1相较于时间步t的相对预测置信度,gt越高说明模型在时间步t-1的预测相对于时间步t的预测更加准确,此时应该为时间步t的转移分数分配更高的权重,从而将较高的预测置信度传递到时间步t,反之则应该为发射分数分配更高的权重,以避免将时间步t-1的错误预测传递下去。
当前一个时间步的标签预测出错,导致转移分数错误,即使这个错误的转移分数比当前时间步的发射分数大得多,门控系数也会降低错误的转移分数在发射分数和转移分数之中的比重,减少前一个时间步对当前时间步的影响,缓解了错误传播的问题。
本发明提供的命名实体识别方法,基于门控-条件随机场的命名实体识别模型提取待识别文本信息的上下文特征序列,确定发射分数、转移分数,计算各时间步的预测置信度,基于前一个时间步的预测置信度和当前时间步的预测置信度确定门控系数,让门控系数决定标签发射分数和转移分数的比重,加强在识别过程中对实体边界的判断,缓解由于错误的标签转移分数过大导致的错误传播问题,从而提高命名实体识别的准确率。
可选的,根据本发明提供的命名实体识别方法,所述特征提取层包括:隐藏信息提取层和特征序列确定层;
所述隐藏信息提取层用于确定所述待识别文本词向量序列中各时间步的词向量的前向信息和后向信息,根据前向信息和后向信息确定上下文特征;
所述特征序列确定层用于根据所述各时间步的上下文特征确定所述待识别文本特征序列。
具体的,在大部分命名实体识别任务中,目前最常用的解决方案是使用深度双向时序网络连接条件随机场(BiLSTM-CRF)的模型。虽然这个经典模型能解决大部分的问题,但是也同样存在一些缺点,比如错误传播。
为了解决BiLSTM-CRF的模型存在的错误传播问题,我们提出提出了一种基于门控-条件随机场(gate-conditional random field,简称GCRF)的命名实体识别方法。以典型的深度双向时序网络(BiLSTM)为基础,结合门控-条件随机场。
在命名实体识别模型中特征提取层包括:隐藏信息提取层和特征序列确定层;
隐藏信息提取层用于处理维度为d的待识别文本词向量序列{x1,x2,…xn},其中,xi∈R1×d。使用隐藏单元的个数为h的BiLSTM对给定时间步t的输入xt进行前向和后向的编码,并将该时间步正向隐藏状态记为
Figure BDA0002954552250000131
(前向信息),反向隐藏状态记为
Figure BDA0002954552250000132
(后向信息),连结两个方向的隐藏状态
Figure BDA0002954552250000133
Figure BDA0002954552250000134
来得到隐藏状态
Figure BDA0002954552250000135
ht即为给定时间步t上下文信息的全局特征(上下文特征)。
特征序列确定层用于在确定待识别文本词向量序列{x1,x2,…xn}中各时间步的上下文特征之后,按照时间步顺序将上下文特征进行排列,确定待识别文本特征序列{h1,h2,…,hn}。
本发明提供的命名实体识别方法,基于门控-条件随机场的命名实体识别模型在使用词向量对文本进行嵌入表示之后,基于BiLSTM模型提取待识别文本信息的上下文特征序列,计算标签发射分数,然后通过GCRF的门控机制来动态调整每个时间步中发射分数与转移分数的比重,由于BiLSTM的隐状态特征中不仅包含了相邻时间步的信息,还包括了预测倾向与预测置信度,使用BiLSTM能够有效的反应待识别文本上下文之间的内在联系,以此确定门控系数有助于反应标签传播之间的前后内在联系,缓解命名实体识别中CRF带来的错误传播问题。
可选的,根据本发明提供的命名实体识别方法,所述文本信息还包括:文本;
对应的,所述命名实体识别模型还包括:文本预处理层;
所述文本预处理层用于处理待识别文本,确定所述待识别文本对应的待识别文本词向量序列。
具体的,在进行待识别文本的命名实体识别时,可以先处理待识别确定文本词向量序列,直接将处理好的词向量序列作为模型的输入和训练样本。基于文本确定词向量的方法可根据实际情况选择,例如word2vec、Glove、FastText、Elmo等,本发明对此不做限定。
除此之外,还可以不预先对待识别文本进行处理,直接将待识别文本和样本文本作为模型的输入和训练样本。
对应的,此时命名实体识别模型还包括:文本预处理层;
文本预处理层用于处理待识别文本,确定待识别文本对应的待识别文本词向量序列。
具体的,文本预处理层可以使用预训练过的Word2vec把one-hot单词向量映射到定义好的低维空间,得到每个单词的词向量。
记词典大小为V,采用预训练过的Word2vec把维度为V的one-hot单词向量映射到定义好的低维空间,输出的词向量维度记为d。对于长度为n的输入待识别文本序列{w1,w2,…wn},文本预处理层输出的待识别文本词向量序列记为X={x1,x2,…xn},其中xi∈R1×d
本发明提供的命名实体识别方法,通过增添文本预处理层实现对待识别文本的预处理,可以时命名实体识别模型的输入从待识别别文本词向量序列变换为待识别文本,模型直接进行将待识别文本转换为对应的词向量序列的操作,降低命名实体识别的操作复杂度。
可选的,根据本发明提供的命名实体识别方法,所述命名实体识别模型还包括:识别结果输出层;
所述识别结果输出层用于确定所述实体标签序列中具有最佳输出概率的实体标签序列作为目标实体识别结果。
具体的,命名实体识别模型还包括:识别结果输出层;
识别结果输出层用于确定实体标签序列中具有最佳输出概率的实体标签序列作为目标实体识别结果。
优选的,在对待识别文本信息进行命名实体识别之后,实体的识别结果具有若干种不同的可能,每一种可能性中实体标签序列以及对应的预测概率均不相同。在确定各实体标签序列之后,优选的,用维特比算法推导出具有最佳输出概率的标签序列作为预测结果即目标实体识别结果。
引入了门控系数之后,在用维特比算法推导序列标签时,序列得分由发射分数、转移分数还有门控系数共同决定:
Figure BDA0002954552250000151
与之相比,在用维特比算法推导序列标签时,没有引入门控系数时,CRF的序列得分是由发射分数和转移分数计算得出的,如果前一个时间步的标签预测出错,那从前一个时间步到当前时间步的转移分数显然也是错误的,如果这个错误的转移分数比当前时间步的发射分数大得多,那就会导致当前时间步的标签也预测出错,也就是发生了错误传播。
本发明提供的命名实体识别方法,通过识别结果输出层实现对若干识别结果实体标签序列的筛选,基于发射分数、转移分数还有门控系数共同决定选取其中具有最佳输出概率的标签序列作为预测结果作为目标实体识别结果,保证命名实体识别模型最终的输出为最佳结果,无需进行人为的筛选,避免输出结果中错误传播的发生,提高识别的精度。
结合本发明提供的命名实体识别方法处理具体句子的例子进行说明:
例如在训练好的命名实体识别模型中输入句子“Eight dogs experiencedventricular tachycardia.”的词向量序列,经过BiLSTM提取每个时间步的上下文特征,把上下文特征经过变换得到发射分数以及门控系数,根据训练好的转移分数得到所有标签路径的概率,最后根据维特比算法计算出最优路径即最终的标签序列“O O O B-Disease I-Disease O”。
需要说明的是,以上方法仅作为一个具体的实例对本发明进行说明,在实际使用过程中,提取特征的方法以及确定最优路径的算法均可以根据实际情况进行调整,本发明对此不做限定。
图3为本发明提供的命名实体识别系统结构示意图,如图3所示,本发明还提供一种命名实体识别系统,包括:
文本识别单元310,用于将待识别文本信息输入命名实体识别模型中,得到所述命名实体识别模型输出的实体识别结果;
其中,所述命名实体识别模型由样本文本信息及对应的标签序列训练得到;所述文本信息包括:文本词向量序列;
所述命名实体识别模型用于确定所述待识别文本信息对应的待识别文本特征序列和发射分数,基于门控-条件随机场确定门控系数;基于所述发射分数、所述门控系数和转移分数,确定实体识别结果;
所述门控系数为待识别文本特征序列中上一个时间步与当前时间步的相对预测置信度。
具体的,文本识别单元310,用于将待识别文本信息输入已经事先训练好的命名实体识别模型中,命名实体识别模型用于确定待识别文本信息对应的待识别文本特征序列,基于门控-条件随机场确定待识别文本特征序列对应的发射分数、转移分数和门控系数,进而根据发射分数、转移分数和门控系数得到所述命名实体识别模型输出的实体识别结果。待识别文本信息包括:待识别文本词向量序列。
其中,在命名实体识别模型在进行文本信息的处理时,按照预设的规则将完整的文本信息分成多个时间步,门控系数即为待识别文本特征序列中上一个时间步与当前时间步的相对预测置信度。
需要说明的是,在进行待识别文本信息的识别之前,还需要预先训练好命名识别体模型,命名实体识别模型由样本文本信息训练得到,样本文本信息包括:样本文本词向量序列。
本发明提供的命名实体识别系统,通过基于门控-条件随机场的命名实体识别模型加强在识别过程中对实体边界的判断,让门控系数决定标签发射分数和转移分数的比重,缓解由于错误的标签转移分数过大导致的错误传播问题,从而提高命名实体识别的准确率。
需要说明的是,本发明实施例提供的命名实体识别系统用于执行上述命名实体识别方法,其具体的实施方式与方法实施方式一致,在此不再赘述。
图4为本发明提供的电子设备的实体结构示意图,如图4所示,所述电子设备可以包括:处理器(processor)410、通信接口(communication interface)420、存储器(memory)430和通信总线(bus)440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行上述命名实体识别方法,包括:将待识别文本信息输入命名实体识别模型中,得到所述命名实体识别模型输出的实体识别结果;其中,所述命名实体识别模型由样本文本信息及对应的标签序列训练得到;所述文本信息包括:文本词向量序列;所述命名实体识别模型用于确定所述待识别文本信息对应的待识别文本特征序列和发射分数,基于门控-条件随机场确定门控系数;基于所述发射分数、所述门控系数和转移分数,确定实体识别结果;所述门控系数为待识别文本特征序列中上一个时间步与当前时间步的相对预测置信度。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的命名实体识别方法,该方法包括:将待识别文本信息输入命名实体识别模型中,得到所述命名实体识别模型输出的实体识别结果;其中,所述命名实体识别模型由样本文本信息及对应的标签序列训练得到;所述文本信息包括:文本词向量序列;所述命名实体识别模型用于确定所述待识别文本信息对应的待识别文本特征序列和发射分数,基于门控-条件随机场确定门控系数;基于所述发射分数、所述门控系数和转移分数,确定实体识别结果;所述门控系数为待识别文本特征序列中上一个时间步与当前时间步的相对预测置信度。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的以执行命名实体识别方法,该方法包括:将待识别文本信息输入命名实体识别模型中,得到所述命名实体识别模型输出的实体识别结果;其中,所述命名实体识别模型由样本文本信息及对应的标签序列训练得到;所述文本信息包括:文本词向量序列;所述命名实体识别模型用于确定所述待识别文本信息对应的待识别文本特征序列和发射分数,基于门控-条件随机场确定门控系数;基于所述发射分数、所述门控系数和转移分数,确定实体识别结果;所述门控系数为待识别文本特征序列中上一个时间步与当前时间步的相对预测置信度。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种命名实体识别方法,其特征在于,包括:
将待识别文本信息输入命名实体识别模型中,得到所述命名实体识别模型输出的实体识别结果;
其中,所述命名实体识别模型由样本文本信息及对应的标签序列训练得到;所述文本信息包括:文本词向量序列;
所述命名实体识别模型用于确定所述待识别文本信息对应的待识别文本特征序列和发射分数,基于门控-条件随机场确定门控系数;基于所述发射分数、所述门控系数和转移分数,确定实体识别结果;
所述门控系数为待识别文本特征序列中上一个时间步与当前时间步的相对预测置信度。
2.根据权利要求1所述的命名实体识别方法,其特征在于,所述命名实体识别模型包括:特征提取层、特征处理层、门控处理层和概率预测层;
所述特征提取层用于确定所述待识别文本词向量序列中各时间步的上下文特征,基于所述各时间步的上下文特征确定所述待识别文本特征序列;
所述特征处理层用于根据所述待识别文本特征序列确定各时间步对应的发射分数;
所述门控处理层用于根据所述待识别文本特征序列确定各个时间步的预测置信度,基于所述各个时间步的预测置信度确定所述门控系数;
所述概率预测层用于根据所述发射分数、所述转移分数和所述门控系数确定所述待识别文本对应的实体标签序列以及对应的概率,作为所述实体识别结果。
3.根据权利要求2所述的命名实体识别方法,其特征在于,所述将待识别文本信息输入命名实体识别模型中,得到所述命名实体识别模型输出的实体识别结果,具体包括:
将所述待识别文本词向量序列输入至所述特征提取层中,得到所述特征提取层输出的所述待识别文本特征序列;
将所述待识别文本特征序列输入至所述特征处理层中,得到所述特征处理层输出的所述各时间步对应的发射分数;
将所述待识别文本特征序列输入至所述门控处理层中,得到所述门控处理层输出的所述各个时间步的门控系数;
将所述发射分数、所述转移分数和所述门控系数输入至所述概率预测层中,得到所述概率预测层输出的实体识别结果。
4.根据权利要求2所述的命名实体识别方法,其特征在于,所述门控处理层包括:线性处理层和系数计算层;
所述线性处理层用于将所述待识别文本特征序列中当前时间步和上一时间步的待识别文本特征变换到维度1,并通过Sigmoid激活函数确定当前时间步和上一时间步的预测置信度;
所述系数计算层用于根据所述当前时间步和上一时间步的预测置信度,计算得到当前时间步的门控系数。
5.根据权利要求3所述的命名实体识别方法,其特征在于,所述特征提取层包括:隐藏信息提取层和特征序列确定层;
所述隐藏信息提取层用于确定所述待识别文本词向量序列中各时间步的词向量的前向信息和后向信息,根据前向信息和后向信息确定上下文特征;
所述特征序列确定层用于根据所述各时间步的上下文特征确定所述待识别文本特征序列。
6.根据权利要求1-5任一项所述的命名实体识别方法,其特征在于,
所述文本信息还包括:文本;
对应的,所述命名实体识别模型还包括:文本预处理层;
所述文本预处理层用于处理待识别文本,确定所述待识别文本对应的待识别文本词向量序列。
7.根据权利要求2-5任一项所述的命名实体识别方法,其特征在于,
述命名实体识别模型还包括:识别结果输出层;
所述识别结果输出层用于确定所述实体标签序列中具有最佳输出概率的实体标签序列作为目标实体识别结果。
8.一种命名实体识别系统,其特征在于,包括:
文本识别单元,用于将待识别文本信息输入命名实体识别模型中,得到所述命名实体识别模型输出的实体识别结果;
其中,所述命名实体识别模型由样本文本信息及对应的标签序列训练得到;所述文本信息包括:文本词向量序列;
所述命名实体识别模型用于确定所述待识别文本信息对应的待识别文本特征序列和发射分数,基于门控-条件随机场确定门控系数;基于所述发射分数、所述门控系数和转移分数,确定实体识别结果;
所述门控系数为待识别文本特征序列中上一个时间步与当前时间步的相对预测置信度。
9.一种电子设备,其特征在于,包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至7任一项所述的命名实体识别方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述的命名实体识别方法。
CN202110220352.8A 2021-02-26 2021-02-26 命名实体识别方法及系统、电子设备和存储介质 Pending CN113076751A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110220352.8A CN113076751A (zh) 2021-02-26 2021-02-26 命名实体识别方法及系统、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110220352.8A CN113076751A (zh) 2021-02-26 2021-02-26 命名实体识别方法及系统、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113076751A true CN113076751A (zh) 2021-07-06

Family

ID=76609644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110220352.8A Pending CN113076751A (zh) 2021-02-26 2021-02-26 命名实体识别方法及系统、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113076751A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761925A (zh) * 2021-07-23 2021-12-07 中国科学院自动化研究所 基于噪声感知机制的命名实体识别方法、装置及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761925A (zh) * 2021-07-23 2021-12-07 中国科学院自动化研究所 基于噪声感知机制的命名实体识别方法、装置及设备
CN113761925B (zh) * 2021-07-23 2022-10-28 中国科学院自动化研究所 基于噪声感知机制的命名实体识别方法、装置及设备

Similar Documents

Publication Publication Date Title
CN110895932B (zh) 基于语言种类和语音内容协同分类的多语言语音识别方法
CN111460807B (zh) 序列标注方法、装置、计算机设备和存储介质
CN111897908A (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN113239700A (zh) 改进bert的文本语义匹配设备、系统、方法及存储介质
WO2021051598A1 (zh) 文本情感分析模型训练方法、装置、设备及可读存储介质
CN113128203A (zh) 基于注意力机制的关系抽取方法、系统、设备及存储介质
CN111859964A (zh) 一种语句中命名实体的识别方法及装置
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN111783478A (zh) 机器翻译质量估计方法、装置、设备及存储介质
CN113705237A (zh) 融合关系短语知识的关系抽取方法、装置和电子设备
CN113705196A (zh) 基于图神经网络的中文开放信息抽取方法和装置
CN113723103A (zh) 融合多源知识的中文医学命名实体和词性联合学习方法
CN114153971A (zh) 一种含错中文文本纠错识别分类设备
CN114239612A (zh) 一种多模态神经机器翻译方法、计算机设备及存储介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114067786A (zh) 语音识别方法、装置、电子设备及存储介质
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN111832302A (zh) 一种命名实体识别方法和装置
CN113076751A (zh) 命名实体识别方法及系统、电子设备和存储介质
CN115269768A (zh) 要素文本处理方法、装置、电子设备和存储介质
CN111368524A (zh) 一种基于自注意力双向gru和svm的微博观点句识别方法
CN115527520A (zh) 异常检测方法、装置、电子设备和计算机可读存储介质
CN114579763A (zh) 一种针对中文文本分类任务的字符级对抗样本生成方法
CN113077785A (zh) 一种端到端的多语言连续语音流语音内容识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination