CN113836927B - 命名实体识别模型的训练方法、装置、设备及存储介质 - Google Patents

命名实体识别模型的训练方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113836927B
CN113836927B CN202111138989.9A CN202111138989A CN113836927B CN 113836927 B CN113836927 B CN 113836927B CN 202111138989 A CN202111138989 A CN 202111138989A CN 113836927 B CN113836927 B CN 113836927B
Authority
CN
China
Prior art keywords
text
vector
named entity
word
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111138989.9A
Other languages
English (en)
Other versions
CN113836927A (zh
Inventor
颜泽龙
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202111138989.9A priority Critical patent/CN113836927B/zh
Publication of CN113836927A publication Critical patent/CN113836927A/zh
Application granted granted Critical
Publication of CN113836927B publication Critical patent/CN113836927B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本申请涉及自然语言处理技术领域,具体公开了命名实体识别模型的训练方法、装置、设备和存储介质,通过遍历文本截取多个文本片段并将其用于模型的训练,得到了能够识别嵌套命名实体的模型。方法包括:遍历文本对文本进行截取得到多个文本片段,将文本输入Transformer层和全连接层得到每个字的第一向量和第二向量,第一向量为每个字作为实体第一边界的表征向量,第二向量为每个字作为实体第二边界的表征向量。将文本片段的第一个字的第一向量和最后一个字的第二向量输入双线性模型得到文本片段的表征向量,并将其输入Softmax层输出文本片段的命名实体类别的预测结果。根据预测结果及提前标注的真实结果计算的损失值优化模型的参数,得到训练好的模型。

Description

命名实体识别模型的训练方法、装置、设备及存储介质
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种命名实体识别模型的训练方法、装置、计算机设备及存储介质。
背景技术
命名实体识别(NER,Name Entity Recognition)是自然语言处理的基础研究内容之一,其任务是识别文本中的语言块。命名实体识别在实际应用中经常要面对命名实体嵌套的问题。命名实体的嵌套使得文字与实体标签之间无法建立一对一的对应关系。例如,对于文本“腰间盘突出吃什么药”,“腰间盘”是一种命名实体,类型是“身体部位”,“腰间盘突出”是一种命名实体,类型是“疾病症状”。由于两个命名实体相互嵌套,一般的命名实体识别模型没法同时抽取这两个实体。
发明内容
本申请提供了一种命名实体识别模型的训练方法、装置、计算机设备及存储介质,通过遍历文本得到所有可能的文本片段,并训练分类器对每个文本片段进行命名实体的识别和类型的预测,解决了嵌套实体的识别问题。
第一方面,本申请提供了一种命名实体识别模型的训练方法,所述训练方法包括:
遍历文本对所述文本进行截取得到多个文本片段,其中,所述多个文本片段的长度不小于第一预设长度且也不大于第二预设长度;
将所述文本输入所述Transformer层和全连接层,得到所述文本中的每个字的第一向量和第二向量,其中,所述第一向量表示将所述每个字作为命名实体第一边界的表征向量,所述第二向量表示将所述每个字作为命名实体第二边界的表征向量;
将每个所述文本片段的第一个字的第一向量和最后一个字的第二向量输入所述双线性模型,得到每个所述文本片段的表征向量;
将每个所述文本片段的表征向量输入所述Softmax层,输出每个所述文本片段的命名实体类别的预测结果;
根据每个所述文本片段的命名实体类别的预测结果和提前标注的所述文本片段的命名实体类别的真实结果计算损失值,并根据所述损失值优化所述命名实体识别模型的参数,得到训练好的命名实体识别模型。
第二方面,本申请还提供了一种命名实体识别模型的训练装置,所述训练装置包括:
文本片段截取模块,用于遍历文本对所述文本进行截取得到多个文本片段,其中,所述多个文本片段的长度不小于第一预设长度且也不大于第二预设长度;
字向量确定模块,用于将所述文本输入所述Transformer层和全连接层,得到所述文本中的每个字的第一向量和第二向量,其中,所述第一向量表示将所述每个字作为命名实体第一边界的表征向量,所述第二向量表示将所述每个字作为命名实体第二边界的表征向量;
文本片段向量确定模块,用于将每个所述文本片段的第一个字的第一向量和最后一个字的第二向量输入所述双线性模型,得到每个所述文本片段的表征向量;
实体类别预测模块,用于将每个所述文本片段的表征向量输入所述Softmax层,输出每个所述文本片段的命名实体类别的预测结果;
模型输出模块,用于根据每个所述文本片段的命名实体类别的预测结果和提前标注的所述文本片段的命名实体类别的真实结果计算损失值,并根据所述损失值优化所述命名实体识别模型的参数,得到训练好的命名实体识别模型。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上述的命名实体识别模型的训练方法。
第四方面,本申请还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的命名实体识别模型的训练方法。
本申请公开了一种命名实体识别模型的训练方法、装置、计算机设备及存储介质,通过遍历文本并截取所有可能的文本片段得到多个文本片段,并训练分类器对每个文本片段进行命名实体的识别和分类,根据所有文本片段的命名实体的分类结果来优化模型,从而得到了能够识别文本中包含的多个命名实体的命名实体识别模型,尤其是能够解决当文本包含嵌套实体时的命名实体识别问题。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的实施例提供的一种命名实体识别模型的训练方法的示意流程图;
图2为本申请的实施例提供的一种命名实体识别模型的训练装置的示意性框图;
图3为本申请的实施例提供的一种计算机设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得的最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然盐处理技术以及机器学习/深度学习等几大方向。
本申请的实施例是基于人工智能识别自然文本中的命名实体的自然语言处理方法。命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,即识别自然文本中的实体的边界和类别。
嵌套NER就是识别的实体中可能会存在嵌套的情况,例如对于文本:腰间盘突出吃什么药,腰间盘是一种实体,类型是身体部位,腰间盘突出是一种实体,类型是疾病症状。当两个实体相互嵌套时,一般的命名实体识别没办法同时抽取这两个实体,因此需要训练出能够抽取嵌套命名实体的模型。
本申请的实施例提供了一种命名实体识别模型的训练方法、装置、计算机设备及存储介质。其中,该命名实体识别模型的训练方法可以应用于服务器中,通过遍历自然文本并对其进行截取得到的多个文本片段进行命名实体的识别,实现嵌套命名实体的识别。其中,该服务器可以为独立的服务器,也可以为服务器集群。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请的实施例提供的一种命名实体识别模型的训练方法,该训练方法具体包括步骤S101至步骤S105。
S101、遍历文本对所述文本进行截取得到多个文本片段,其中,所述多个文本片段的长度不小于第一预设长度且也不大于第二预设长度。
具体的,首先获取用于训练模型的多个文本,遍历文本进行截取得到该文本对应的多个文本片段,且文本片段的长度不小于第一预设长度不大于第二预设长度。遍历文本将所有满足长度条件的可能的文本片段都截取出来训练模型。
为了更好地训练模型识别嵌套命名实体的能力,用于训练的文本中必须包括至少包含2个及以上嵌套命名实体的样本。例如对于文本:“腰间盘突出吃什么药”,“腰间盘”是一种命名实体,类型是身体部位;“腰间盘突出”也是一种命名实体,类型是疾病症状。该文本中包含了两个命名实体,且这两个命名实体在文本中的位置存在嵌套关系。
另外,基于训练模型的需要,还需要对文本中包含命名实体的文本片段及对应的实体类别进行标注记录为该文本的真实值。
需要说明的是,第一预设长度和第二预设长度可根据实际应用场景进行确定,本申请对此不作限定。
示例性地,当将第一预设长度设置为1,第二预设长度设置为10时,从文本中截取的文本片段最小长度大于1,最大长度小于10。
示例性地,对于文本“腰间盘突出吃什么药”,以第一个字“腰”作为片段开始,可以得到“腰”“腰间”“腰间盘”,“腰间盘突”,“腰间盘突出”,“腰间盘突出吃”,“腰间盘突出吃什”,“腰间盘突出吃什么”等多个文本片段。
S102、将所述文本输入所述Transformer层和全连接层,得到所述文本中的每个字的第一向量和第二向量,其中,所述第一向量表示将所述每个字作为命名实体第一边界的表征向量,所述第二向量表示将所述每个字作为命名实体第二边界的表征向量。
本申请实施例提供的命名实体识别模型具体包括:Transformer层、全连接层、双线性模型及Softmax层。其中,Transformer层根据需要可以设计为多层的Transformer。
具体的,首先将文本先进行分字处理得到字的集合,将字的集合输入模型的Transformer层中,得到每个字的向量表示。然后将每个字的向量表示输入第一全连接层得到所述文本中的每个字的第一向量,所述第一向量表示将所述每个字作为命名实体第一边界的表征向量。将每个字的向量表示输入第二全连接层,得到所述文本中的每个字的第二向量,所述第二向量表示将所述每个字作为命名实体第二边界的表征向量。
需要说明的是,所述第一边界指命名实体的开始位置,所述第二边界指命名实体的结束位置。
示例性地,对于文本x=[x1,x2,...,xn],xi表示第xi个字,n表示文本长度。将其输入Transformer结构,得到相应的每个字的向量表示v=[v1,v2,...vn]。
示例性地,第一全连接层为FFNNstart,第二全连接层为FFNNend,分别计算当前位置的字作为实体开始或者结束的向量表示。对于任何一个位置,可以计算相应位置的字作为实体开始和结束的特征表示,公式表征为:
hstart(i)=FFNNstart(vi)
hend(i)=FFNNend(vi)
其中,hstart(i)为当前位置的字作为实体开始的向量表示,hend(i)为当前位置的字作为实体结束的向量表示。
S103、将每个所述文本片段的第一个字的第一向量和最后一个字的第二向量输入所述双线性模型,得到每个所述文本片段的表征向量。
具体的,将每个文本片段的第一个字的第一向量和最后一个字的第二向量输入双线性模型来确定整个文本片段的表征向量。
示例性地,对于任何一个文本片段xspan=[xspan,start,xspan,start+1,...,xspan,end],其中xspan,start和xspan,end是该文本片段的开始和结束位置的字,通过双线性模型可得到文本片段的向量表征,公式表征如下:
式中,W1、W2、b都是双线性模型的参数,需要通过训练得到。
S104、将每个所述文本片段的表征向量输入所述Softmax层,输出每个所述文本片段的命名实体类别的预测结果。
命名实体预测结果包括文本片段属于预设命名实体类别的概率分布以及文本片段所属的预设命名实体类别。
具体的,首先将每个文本片段的表征向量输入所述Softmax层,通过Softmax分类器计算该片段是否属于命名实体或者属于哪种命名实体类型的概率,输出每个文本片段属于预设类别的概率分布。其中,概率分布表示每个文本片段属于每一个预设类别的概率值的分布。其中,预设类别是根据训练文本的类型预先确定的,具体的,预设的命名实体类别和一个用于表征文本片段不属于命名实体的其他类别。这是因为遍历文本得到的所有可能的文本片段中必定包含大量不属于命名实体的文本片段,因此在预先确定的命名实体类别中增加一个其他类别,该其他类别表示该文本片段不属于任何命名实体。
示例性地,假设基于训练文本总共有c种命名实体类型,则最终分类有c+1种,c种命名实体类型加上不属于任何实体的其他类别。
当通过Softmax计算该文本片段属于各个类别的概率分布后,可根据所述概率分布中的最大概率值对应的命名实体类别,确定每个所述文本片段所属的预设类别。
示例性地,Softmax计算文本片段属于各个类别的概率分布公式表征为:
yspan=argmax(softmax(pspan))
式中,pspan为文本片段的向量表示。
S105、根据每个所述文本片段的命名实体类别的预测结果和提前标注的所述文本片段的命名实体类别的真实结果计算损失值,并根据所述损失值优化所述命名实体识别模型的参数,得到训练好的命名实体识别模型。
具体的,将对文本进行遍历得到的所有文本片段都进行分类预测得到相应片段的命名实体预测结果,根据所有文本片段的命名实体类别预测结果和提前标注的所述文本片段的命名实体类别的真实结果确定模型的损失,并根据损失值优化模型的参数,得到训练好的命名实体识别模型。
需要说明的是,真实结果是在训练前提前标注得到的,在训练之前对训练用的文本中的命名实体对应的文本片段进行标注上相应的命名实体类别,而其他不属于命名实体对应的文本片段对应的类别标注为其他类别。
在一些实施例中,将每个所述文本片段属于预设类别的概率分布和提前标注的所述文本片段的命名实体类别的真实结果的向量表示,输入交叉熵损失函数计算所述损失值,具体公式表征为:
式中,表示第i个文本片段属于第j个类别的概率,/>表示真实的标签。
示例性地,假设提前设置的预设类别包括:10个预设的命名实体类别和1个其他类别,总共有11个预设类别。将文本片段的命名实体类别的真实结果转化为11维的one-hot向量,得到真实结果的向量表示;通过softmax输出的预测结果也是11维的ont-hot向量,对应该文本片段属于每个预设类别的概率值,且概率值总和为1。将文本片段的真实结果的向量表示以及预测结果的概率分布输入域交叉熵损失函数计算损失值。
命名实体识别模型的优化目标是最小化交叉熵损失函数计算的损失值。根据损失值迭代训练模型,更新命名实体识别模型的参数,以得到训练好的命名实体识别模型。
得到训练好的命名实体识别模型后,可以将训练好的模型用于文本中可能包含的的命名实体的识别。
具体的,获取待识别文本,遍历所述待识别文本并对所述待识别文本进行截取得到多个待识别的文本片段;将每个所述待识别的文本片段输入所述训练好的命名实体识别模型,输出每个所述待识别的文本片段的命名实体类别;根据每个所述待识别的文本片段的命名实体类别确定所述文本的命名实体识别结果。
待识别文本遍历所得的多个文本片段中,大部分文本片段的识别结果为其他类别,根据多个待识别的文本片段的命名实体类别,将其中属于预设的命名实体类别的文本片段确定为所述待识别文本包含的命名实体。
示例性地,对于文本““腰间盘突出吃什么药”,其中的“腰间盘”这个文本片段的命名实体类别为“身体部位”,其中的“腰间盘突出”这个文本片段的命名实体类别为:“疾病症状”,而其他文本片段例如“腰间”、“吃什么药”等的命名实体类别为“其他”。其中类别属于预设的命名实体类别的文本片段“腰间盘”和“腰间盘突出”,即为该文本所包含的命名实体。
本申请提出的命名实体识别模型的训练方法,通过遍历文本并对文本进行截取得到文本中包含的所有可能的文本片段,并训练分类器对每个文本片段进行命名实体的识别和实体类型的分类,得到了能够识别嵌套命名实体的模型,解决了实体嵌套的识别问题。本申请提出的命名实体识别方法,能够从各种医学文本中自动识别并抽取相关的实体信息,尤其是能够识别嵌套命名实体,能够节省大量的人力,也避免了人为误差。
请参阅2,图2是本申请的实施例提供一种命名实体识别模型的训练装置的示意性框图,该训练装置用于执行前述的训练方法。其中,该训练装置可以配置于服务器。
如图2所示,该命名实体识别模型的训练装置300,包括:
文本片段截取模块301,用于遍历文本对所述文本进行截取得到多个文本片段,其中,所述多个文本片段的长度不小于第一预设长度且也不大于第二预设长度;
字向量确定模块302,用于将所述文本输入所述Transformer层和全连接层,得到所述文本中的每个字的第一向量和第二向量,其中,所述第一向量表示将所述每个字作为命名实体第一边界的表征向量,所述第二向量表示将所述每个字作为命名实体第二边界的表征向量;
文本片段向量确定模块303,用于将每个所述文本片段的第一个字的第一向量和最后一个字的第二向量输入所述双线性模型,得到每个所述文本片段的表征向量;
实体类别预测模块304,将每个所述文本片段的表征向量输入所述Softmax层,输出每个所述文本片段的命名实体预测结果;
模型输出模块305,用于根据每个所述文本片段的命名实体预测结果和真实结果计算损失值,并根据所述损失值优化所述命名实体识别模型的参数,得到训练好的命名实体识别模型。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的训练装置和各模块的具体工作过程,可以参考前述训练方法实施例中的对应过程,在此不再赘述。
上述的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图3所示的计算机设备上运行。
请参阅图3,图3是本申请的实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器。
参阅图3,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括存储介质和内存储器。
存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种命名实体识别模型的训练方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种命名实体识别模型的训练方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
遍历文本对所述文本进行截取得到多个文本片段,其中,所述多个文本片段的长度不小于第一预设长度且也不大于第二预设长度;
将所述文本输入所述Transformer层和全连接层,得到所述文本中的每个字的第一向量和第二向量,其中,所述第一向量表示将所述每个字作为命名实体第一边界的表征向量,所述第二向量表示将所述每个字作为命名实体第二边界的表征向量;
将每个所述文本片段的第一个字的第一向量和最后一个字的第二向量输入所述双线性模型,得到每个所述文本片段的表征向量;
将每个所述文本片段的表征向量输入所述Softmax层,输出每个所述文本片段的命名实体类别的预测结果;
根据每个所述文本片段的命名实体类别的预测结果和提前标注的所述文本片段的命名实体类别的真实结果计算损失值,并根据所述损失值优化所述命名实体识别模型的参数,得到训练好的命名实体识别模型。
在一个实施例中,所述全连接层包括第一全连接层和第二全连接层,所述处理器在实现将所述文本输入所述Transformer层和全连接层,得到每个字的第一向量和第二向量时,用于实现:将所述文本输入Transformer层得到所述每个字的向量表示;将所述每个字的向量表示输入所述第一全连接层得到所述每个字的第一向量;将所述每个字的向量表示输入所述第二全连接层得到所述每个字的第二向量。
在一个实施例中,所述命名实体类别的预测结果包括:每个所述文本片段属于预设类别的概率分布,所述处理器在实现命名实体识别模型的训练方法时,用于实现:将每个所述文本片段的表征向量输入所述Softmax层,输出每个所述文本片段属于预设类别的所述概率分布;其中,所述概率分布表示每个所述文本片段属于每一个所述预设类别的概率值的分布。
在一个实施例中,所述命名实体类别的预测结果还包括:每个所述文本片段所属的预设类别,所述处理器在实现命名实体识别模型的训练方法时,用于实现:将所述概率分布中的最大概率值对应的预设类别,确定为每个所述文本片段所属的预设类别;其中,所述预设类别包括:预设的命名实体类别和一个用于表征文本片段不属于命名实体的其他类别。
在一个实施例中,所述处理器在实现命名实体识别模型的训练方法时,用于实现:将每个所述文本片段属于预设类别的概率分布和提前标注的所述文本片段的命名实体类别的真实结果的向量表示,输入交叉熵损失函数计算所述损失值。
在一个实施例中,所述处理器在实现命名实体识别模型的训练方法时,用于实现:获取待识别文本,遍历所述待识别文本并对所述待识别文本进行截取得到多个待识别的文本片段;
将每个所述待识别的文本片段输入所述训练好的命名实体识别模型,输出每个所述待识别的文本片段的命名实体类别;
根据每个所述待识别的文本片段的命名实体类别确定所述文本的命名实体识别结果。
在一个实施例中,所述处理器在实现所述根据每个所述待识别的文本片段的命名实体类别确定所述文本的命名实体类别时,用于实现:根据多个待识别的文本片段的命名实体类别,将其中属于预设的命名实体类别的文本片段确定为所述待识别文本包含的命名实体。
本申请的实施例中还提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请实施例提供的任一项命名实体识别模型的训练方法。
其中,所述存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种命名实体识别模型的训练方法,其特征在于,所述命名实体识别模型包括:Transformer层、全连接层、双线性模型及Softmax层;所述方法包括:
遍历文本对所述文本进行截取得到多个文本片段,其中,所述多个文本片段的长度不小于第一预设长度且也不大于第二预设长度;
将所述文本输入所述Transformer层和全连接层,得到所述文本中的每个字的第一向量和第二向量,其中,所述第一向量表示将所述每个字作为命名实体第一边界的表征向量,所述第二向量表示将所述每个字作为命名实体第二边界的表征向量;
将每个所述文本片段的第一个字的第一向量和最后一个字的第二向量输入所述双线性模型,得到每个所述文本片段的表征向量;
将每个所述文本片段的表征向量输入所述Softmax层,输出每个所述文本片段的命名实体类别的预测结果;
根据每个所述文本片段的命名实体类别的预测结果和提前标注的所述文本片段的命名实体类别的真实结果计算损失值,并根据所述损失值优化所述命名实体识别模型的参数,得到训练好的命名实体识别模型。
2.根据权利要求1所述的训练方法,其特征在于,所述全连接层包括第一全连接层和第二全连接层,所述将所述文本输入所述Transformer层和全连接层,得到每个字的第一向量和第二向量包括:
将所述文本输入Transformer层得到所述每个字的向量表示;
将所述每个字的向量表示输入所述第一全连接层得到所述每个字的第一向量;
将所述每个字的向量表示输入所述第二全连接层得到所述每个字的第二向量。
3.根据权利要求1所述的训练方法,其特征在于,所述命名实体类别的预测结果包括:每个所述文本片段属于预设类别的概率分布,所述方法包括:
将每个所述文本片段的表征向量输入所述Softmax层,输出每个所述文本片段属于预设类别的概率分布;
其中,所述概率分布表示每个所述文本片段属于每一个所述预设类别的概率值的分布。
4.根据权利要求3所述的训练方法,其特征在于,所述命名实体类别的预测结果还包括:每个所述文本片段所属的预设类别,所述方法包括:
将所述概率分布中的最大概率值对应的预设类别,确定为每个所述文本片段所属的预设类别;
其中,所述预设类别包括:预设的命名实体类别和一个用于表征文本片段不属于命名实体的其他类别。
5.根据权利要求3所述的训练方法,其特征在于,所述方法包括:
将每个所述文本片段属于预设类别的概率分布和提前标注的所述文本片段的命名实体类别的真实结果的向量表示,输入交叉熵损失函数计算所述损失值。
6.根据权利要求1-4任一项所述的训练方法,其特征在于,所述方法还包括:
获取待识别文本,遍历所述待识别文本并对所述待识别文本进行截取得到多个待识别的文本片段;
将每个所述待识别的文本片段输入所述训练好的命名实体识别模型,输出每个所述待识别的文本片段的命名实体类别;
根据每个所述待识别的文本片段的命名实体类别确定所述文本的命名实体识别结果。
7.根据权利要求6所述的训练方法,其特征在于,所述根据每个所述待识别的文本片段的命名实体类别确定所述文本的命名实体类别包括:
根据多个待识别的文本片段的命名实体类别,将其中属于预设的命名实体类别的文本片段确定为所述待识别文本包含的命名实体。
8.一种命名实体识别模型的训练装置,其特征在于,所述命名实体识别模型包括:Transformer层、全连接层、双线性模型及Softmax层;所述装置包括:
文本片段截取模块,用于遍历文本对所述文本进行截取得到多个文本片段,其中,所述多个文本片段的长度不小于第一预设长度且也不大于第二预设长度;
字向量确定模块,用于将所述文本输入所述Transformer层和全连接层,得到所述文本中的每个字的第一向量和第二向量,其中,所述第一向量表示将所述每个字作为命名实体第一边界的表征向量,所述第二向量表示将所述每个字作为命名实体第二边界的表征向量;
文本片段向量确定模块,用于将每个所述文本片段的第一个字的第一向量和最后一个字的第二向量输入所述双线性模型,得到每个所述文本片段的表征向量;
实体类别预测模块,用于将每个所述文本片段的表征向量输入所述Softmax层,输出每个所述文本片段的命名实体类别的预测结果;
模型输出模块,用于根据每个所述文本片段的命名实体类别的预测结果和提前标注的所述文本片段的命名实体类别的真实结果计算损失值,并根据所述损失值优化所述命名实体识别模型的参数,得到训练好的命名实体识别模型。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至7中任一项所述的命名实体识别模型的训练方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的命名实体识别模型的训练方法。
CN202111138989.9A 2021-09-27 2021-09-27 命名实体识别模型的训练方法、装置、设备及存储介质 Active CN113836927B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111138989.9A CN113836927B (zh) 2021-09-27 2021-09-27 命名实体识别模型的训练方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111138989.9A CN113836927B (zh) 2021-09-27 2021-09-27 命名实体识别模型的训练方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113836927A CN113836927A (zh) 2021-12-24
CN113836927B true CN113836927B (zh) 2023-09-29

Family

ID=78970690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111138989.9A Active CN113836927B (zh) 2021-09-27 2021-09-27 命名实体识别模型的训练方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113836927B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021043085A1 (zh) * 2019-09-04 2021-03-11 平安科技(深圳)有限公司 命名实体识别方法、装置、计算机设备及存储介质
CN112765984A (zh) * 2020-12-31 2021-05-07 平安资产管理有限责任公司 命名实体识别方法、装置、计算机设备和存储介质
CN112800768A (zh) * 2021-02-03 2021-05-14 北京金山数字娱乐科技有限公司 一种嵌套命名实体识别模型的训练方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021043085A1 (zh) * 2019-09-04 2021-03-11 平安科技(深圳)有限公司 命名实体识别方法、装置、计算机设备及存储介质
CN112765984A (zh) * 2020-12-31 2021-05-07 平安资产管理有限责任公司 命名实体识别方法、装置、计算机设备和存储介质
CN112800768A (zh) * 2021-02-03 2021-05-14 北京金山数字娱乐科技有限公司 一种嵌套命名实体识别模型的训练方法及装置

Also Published As

Publication number Publication date
CN113836927A (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
US20240152754A1 (en) Aggregated embeddings for a corpus graph
CN111985229B (zh) 一种序列标注方法、装置及计算机设备
CN110196908A (zh) 数据分类方法、装置、计算机装置及存储介质
CN111950596A (zh) 一种用于神经网络的训练方法以及相关设备
AU2020385264A1 (en) Fusing multimodal data using recurrent neural networks
US20080071708A1 (en) Method and System for Data Classification Using a Self-Organizing Map
EP1903479B1 (en) Method and system for data classification using a self-organizing map
EP4363993A1 (en) Ai-augmented auditing platform including techniques for automated document processing
US11119979B2 (en) Content based recommendations of file system save locations
US20170185913A1 (en) System and method for comparing training data with test data
US11379718B2 (en) Ground truth quality for machine learning models
CN109766437A (zh) 一种文本聚类方法、文本聚类装置及终端设备
CN110708285B (zh) 流量监控方法、装置、介质及电子设备
CN112256886B (zh) 图谱中的概率计算方法、装置、计算机设备及存储介质
CN111027600A (zh) 图像类别预测方法和装置
CN113850666A (zh) 业务调度的方法、装置、设备及存储介质
CN112988964B (zh) 文本韵律边界预测的方法、装置、设备及存储介质
EP3893146A1 (en) An apparatus for determining a classifier for identifying objects in an image, an apparatus for identifying objects in an image and corresponding methods
CN113836927B (zh) 命名实体识别模型的训练方法、装置、设备及存储介质
CN112364912A (zh) 信息分类方法、装置、设备及存储介质
US11501071B2 (en) Word and image relationships in combined vector space
CN114564590A (zh) 应用于大数据和人工智能的智慧医疗信息处理方法及系统
AU2019290658B2 (en) Systems and methods for identifying and linking events in structured proceedings
CN113240565B (zh) 基于量化模型的目标识别方法、装置、设备及存储介质
CN113139381B (zh) 不均衡样本分类方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant