CN114139541A - 命名实体识别方法、装置、设备及介质 - Google Patents
命名实体识别方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN114139541A CN114139541A CN202111389485.4A CN202111389485A CN114139541A CN 114139541 A CN114139541 A CN 114139541A CN 202111389485 A CN202111389485 A CN 202111389485A CN 114139541 A CN114139541 A CN 114139541A
- Authority
- CN
- China
- Prior art keywords
- vector
- entity
- target text
- target
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Abstract
本公开涉及一种命名实体识别方法、装置、设备及介质。其中,命名实体识别方法包括:获取待识别的目标文本;对目标文本进行语义特征编码,得到具有上下文信息的第一编码向量,以及对目标文本进行实体特征编码,得到具有上下文信息的第二编码向量;基于第一编码向量,提取实体片段对应的边界信息;基于第一编码向量、第二编码向量和边界信息,对目标文本进行实体分类,得到目标文本对应的目标实体类别。根据本公开实施例,能够快速地从非结构化文本中提取出实体类别信息,并且提高对非结构化文本进行实体类别分类的准确性。
Description
技术领域
本公开涉及文本处理技术领域,尤其涉及一种命名实体识别方法、装置、设备及介质。
背景技术
随着信息技术的发展,大量的信息收集系统被应用于情报领域中,使情报信息的获取能力得到显著提升。
然而,情报信息一般包含着大量的非结构化文本,使情报人员在面对大量的情报信息时,无法从每个情报信息中快速、准确地提取出其关心的实体类别信息。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种命名实体识别方法、装置、设备及介质。
第一方面,本公开提供了一种命名实体识别方法,包括:
获取待识别的目标文本;
对目标文本进行语义特征编码,得到具有上下文信息的第一编码向量,以及对目标文本进行实体特征编码,得到具有上下文信息的第二编码向量;
基于第一编码向量,提取实体片段对应的边界信息;
基于第一编码向量、第二编码向量和边界信息,对目标文本进行实体分类,得到目标文本对应的目标实体类别。
第二方面,本公开提供了一种命名实体识别装置,包括:
文本获取模块,用于获取待识别的目标文本;
文本编码模块,用于对目标文本进行语义特征编码,得到具有上下文信息的第一编码向量,以及对目标文本进行实体特征编码,得到具有上下文信息的第二编码向量;
信息提取模块,用于基于第一编码向量,提取实体片段对应的边界信息;
实体分类模块,用于基于第一编码向量、第二编码向量和边界信息,对目标文本进行实体分类,得到目标文本对应的目标实体类别。
第三方面,本公开提供了一种命名实体识别设备,包括:
处理器;
存储器,用于存储可执行指令;
其中,处理器用于从存储器中读取可执行指令,并执行可执行指令以实现第一方面的命名实体识别方法。
第四方面,本公开提供了一种计算机可读存储介质,该存储介质存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现第一方面的命名实体识别方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例的命名实体识别方法、装置、设备及介质,能够在获取待识别的目标文本后,对目标文本进行语义特征编码,得到具有上下文信息的第一编码向量,并且对目标文本进行实体特征编码,得到具有上下文信息的第二编码向量,进而基于第一编码向量,提取实体片段对应的边界信息,以基于第一编码向量、第二编码向量和边界信息,对目标文本进行实体分类,得到目标文本对应的目标实体类别,以快速地从非结构化文本中提取出实体类别信息,同时,在对目标文本进行实体类别分类时,可以综合考虑目标文本的语义特征、实体特征以及与实体片段对应的边界特征等多维度的文本特征,提高对非结构化文本进行实体类别分类的准确性。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1为本公开实施例提供的一种命名实体识别方法的流程示意图;
图2为本公开实施例提供的一种条件随机场模型的原理示意图;
图3为本公开实施例提供的另一种命名实体识别方法的流程示意图;
图4为本公开实施例提供的一种命名实体识别模型的原理示意图;
图5为本公开实施例提供的一种命名实体识别装置的结构示意图;
图6为本公开实施例提供的一种命名实体识别设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
相关技术中,为了从大量的情报信息中提取出情报人员关心的实体类别信息,一般基于命名实体识别(Named Entity Recognition,NER)技术对情报信息中包含的情报人员关心的实体类别进行识别,来帮助情报人员快速发现其关心的实体类别信息,减轻情报人员的工作。
其中,NER又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。情报人员希望可以利用NER技术对情报信息中包含的飞机型号、航空发动机型号等进行抽取,并且判断其所属的实体类别。
然而,目前的NER技术主要是字符级别的多分类任务,类别太多时会影响实体分类的准确率。同时,目前的NER技术没有考虑将外部知识带来的信息增益,也会降低实体分类的准确率。
为了解决上述问题,本公开实施例提供了一种命名实体识别方法、装置、设备及介质。
下面首先结合图1至图4对本公开实施例提供的命名实体识别方法进行详细说明。
图1示出了本公开实施例提供的一种命名实体识别方法的流程示意图。
在本公开实施例中,该命名实体识别方法可以由计算设备执行。其中,计算设备可以包括电子设备或服务器。电子设备可以包括但不限于诸如笔记本电脑等等的移动终端以及诸如台式计算机等等的固定终端。服务器可以是云服务器或者服务器集群等具有存储及计算功能的设备。
如图1所示,该命名实体识别方法可以包括如下步骤。
S110、获取待识别的目标文本。
在本公开实施例中,计算设备可以获取用户上传的待识别的目标文本,或者其他设备传输的待识别的目标文本。
具体地,待识别的目标文本可以是任意非结构化文本,例如情报信息、文章、网络信息等,此处不做限定。
S120、对目标文本进行语义特征编码,得到具有上下文信息的第一编码向量,以及对目标文本进行实体特征编码,得到具有上下文信息的第二编码向量。
在本公开实施例中,计算设备可以对获取到的待识别的目标文本进行语义特征编码,得到具有上下文信息的第一编码向量,以及对待识别的目标文本进行实体特征编码,得到具有上下文信息的第二编码向量。由此,计算设备可以得到目标文本的语义特征和实体特征。
在本公开实施例中,可以利用任意预先训练得到的用于提取文本的语义特征的语言表征模型对目标文本进行语义特征编码,以及利用任意预先训练得到的用于提取文本的实体特征的语言表征模型对目标文本进行实体特征编码,在此不作限制。
可选地,计算设备可以通过预先训练得到的用于提取文本的语义特征的第一基于转换器的双向编码表征(Bidirectional Encoder Representation from Transformers,BERT)模型对目标文本进行语义特征编码,即将目标文本输入第一BERT模型,得到第一BERT模型输出的具有上下文信息的第一编码向量。
具体地,将目标文本输入到第一BERT模型中,便可得到将目标文本中每一个文字结合上下文信息编码的字向量,即目标文本中每一个文字对应的具有语义特征的字向量,进而由目标文本中全部文字的字向量形成第一编码向量,即第一编码向量包括第一BERT模型输出的目标文本中全部文字的字向量。
可选地,计算设备可以通过预先训练得到的用于提取文本的实体特征的第二BERT模型对目标文本进行实体特征编码,即将目标文本输入第二BERT模型,得到第二BERT模型输出的具有上下文信息的第二编码向量。
具体地,将目标文本输入到第二BERT模型中,便可得到将目标文本中每一个文字结合上下文信息编码的字向量,即目标文本中每一个文字对应的具有实体特征的字向量,进而由目标文本中全部文字的字向量形成第二编码向量,即第二编码向量包括第二BERT模型输出的目标文本中全部文字的字向量。
需要说明的是,上述第一BERT模型和第二BERT模型是基于不同模型参数预先训练好的具有不同编码功能的模型。
在本公开实施例中,对于目标文本不需要进行分词处理,只需要在目标文本之前插入一个[CLS]符号,用于表示目标文本的文本语句开头,然后将插入有[CLS]符号的目标文本输入BERT模型,即可实现对目标文本的编码,可以减少数据处理量,提高命名实体识别的效率。
S130、基于第一编码向量,提取实体片段对应的边界信息。
在本公开实施例中,计算设备可以在得到第一编码向量之后,根据第一编码向量,提取目标文本中实体片段对应的边界信息。
在本公开一些实施例中,S130可以具体包括:基于第一编码向量,生成目标文本对应的标签数据,标签数据包括目标文本中每个文字对应的实体标签;基于标签数据,提取实体片段对应的边界信息。
具体地,可以利用任意预先训练得到的用于为文字添加实体标签的标注模型对目标文本中的实体片段进行标注,以提取实体片段对应的边界信息,在此不作限制。
可选地,计算设备可以将第一编码向量中的每个字向量分别输入到预先训练得到的用于为文字添加实体标签的条件随机场(Conditional Random Field,CRF)模型中,以使CRF模型根据预先设置的标注规则针对每个字向量分别学习标签之间的约束关系,输出每个字向量对应的实体标签,即每个字向量所属文字对应的实体标签,进而由目标文本中全部文字对应的实体标签形成标签数据,即标签数据包括目标文本中全部文字对应的实体标签。
由于CRF模型是在给定随机变量X条件下,随机变量Y的马尔可夫随机场。以CRF模型中的线性链条件随机场为例,线性链条件随机场可以用于机器学习里的标注问题。在CRF模型P(Y|X)中,Y(Y1-Yn)是输出变量,表示标记序列,X(X1-Xn)是输入变量,表示观测序列。学习时,利用训练数据集通过极大似然估计或正则化的极大似然估计得到CRF模型由于边界信息的提取实际上是标注问题,因此可以用CRF模型实现对实体片段对应的边界信息的提取,CRF模型的原理可以如图2所示。
具体地,CRF模型中预先设置的标注规则如下表1所示。
表1标注规则表
标签 | B | I | O |
含义 | 实体首字 | 实体其他字 | 非实体字符 |
由此,计算设备可以根据该标注规则对目标文本中各文字进行标注,得到各文字对应的实体标签,从而得到目标文本对应的标签数据。
在一些实施例中,计算设备在得到标签数据之后,可以在全部文字对应的实体标签中,筛选用于表征实体的实体标签,例如用于表征实体首字和实体其他字的标签,并进一步确定筛选的实体标签对应各个文字,然后按照确定的各个文字在目标文本中的位置,确定实体片段对应的首个文字的位置和末个文字的位置,作为实体片段对应的边界信息。
在另一些实施例中,计算设备在得到标签数据之后,可以在全部文字对应的实体标签中,筛选用于表征实体的实体标签,例如用于表征实体首字和实体其他字的标签,并进一步确定筛选的实体标签对应各个文字,然后按照确定的各个文字在目标文本中的位置,确定实体片段对应的各个文字的位置,作为实体片段对应的边界信息。
S140、基于第一编码向量、第二编码向量和边界信息,对目标文本进行实体分类,得到目标文本对应的目标实体类别。
在本公开实施例中,计算设备在得到第一编码向量、第二编码向量和边界信息之后,可以通过第一编码向量、第二编码向量和边界信息,对目标文本进行实体分类,得到目标文本对应的目标实体类别。
在本公开一些实施例中,计算设备可以基于边界信息从第一编码向量和第二编码向量中分别提取所需要的向量部分,进而利用提取出的向量部分对目标文本进行实体分类,得到目标文本对应的目标实体类别。
可选地,S140可以具体包括:基于边界信息,从第一编码向量中提取第一表示向量,以及从第二编码向量中提取第二表示向量;计算第一表示向量和第二表示向量对应的平均表示向量;基于平均表示向量,对目标文本进行实体分类,得到目标文本对应的目标实体类别。
具体地,计算设备可以基于边界信息,从第一编码向量中提取实体片段所涉及的第一表示向量,以及从第二编码向量中提取实体片段所涉及的第二表示向量,然后计算第一表示向量和第二表示向量的平均值,得到第一表示向量和第二表示向量对应的平均表示向量,进而基于平均表示向量,对目标文本进行实体分类,得到目标文本对应的目标实体类别。
在一些实施例中,基于边界信息,从第一编码向量中提取第一表示向量,以及从第二编码向量中提取第二表示向量可以具体包括:
基于边界信息,从第一编码向量中提取实体片段对应的第一编码向量片段,以及从第二编码向量中提取实体片段对应的第二编码向量片段;将第一编码向量片段中各向量的均值作为第一表示向量;将第二编码向量片段中各向量的均值作为第二表示向量。
在实体片段对应的边界信息包括实体片段对应的首个文字的位置和末个文字的位置的情况下,计算设备可以基于实体片段对应的首个文字的位置和末个文字的位置,从第二编码向量中提取实体片段所涉及的每个文字对应的字向量,得到实体片段对应的第一编码向量片段,然后计算第一编码向量片段中各向量的均值,得到实体片段在第一编码向量中所涉及的第一表示向量。计算设备还可以基于实体片段对应的首个文字的位置和末个文字的位置,生成掩膜模板,该掩膜模板用于提取文本中的实体片段所涉及的每个文字,并利用掩膜模板对第二编码向量进行掩膜,从第二编码向量中提取实体片段所涉及的每个文字对应的字向量,得到实体片段对应的第二编码向量片段,然后计算第二编码向量片段中各向量的均值,得到实体片段在第二编码向量中所涉及的第二表示向量。
在实体片段对应的边界信息包括实体片段对应的各个文字的位置的情况下,计算设备可以基于实体片段对应的各个文字的位置,从第二编码向量中提取实体片段所涉及的每个文字对应的字向量,得到实体片段对应的第一编码向量片段,然后计算第一编码向量片段中各向量的均值,得到实体片段在第一编码向量中所涉及的第一表示向量。计算设备还可以基于实体片段对应的各个文字的位置,生成掩膜模板,该掩膜模板用于提取文本中的实体片段所涉及的每个文字,并利用掩膜模板对第二编码向量进行掩膜,从第二编码向量中提取实体片段所涉及的每个文字对应的字向量,得到实体片段对应的第二编码向量片段,然后计算第二编码向量片段中各向量的均值,得到实体片段在第二编码向量中所涉及的第二表示向量。
在一些实施例中,基于平均表示向量,对目标文本进行实体分类,得到目标文本对应的目标实体类别可以具体包括:对平均表示向量进行归一化指数计算,得到目标文本属于各个预设实体类别的概率值;将最大概率值所属的预设实体类别作为目标文本对应的目标实体类别。
具体地,计算设备计算出平均表示向量之后,可以将平均表示向量中的每个分量依次输入预先训练得到的归一化指数(softmax)函数中,由softmax函数基于各个分量计算目标文本属于的各个预设实体类别的概率值,然后,将最大概率值所属的预设实体类别作为目标文本对应的目标实体类别,得到对目标文本的实体类别的识别结果。
在本公开实施例中,能够在获取待识别的目标文本后,对目标文本进行语义特征编码,得到具有上下文信息的第一编码向量,并且对目标文本进行实体特征编码,得到具有上下文信息的第二编码向量,进而基于第一编码向量,提取实体片段对应的边界信息,以基于第一编码向量、第二编码向量和边界信息,对目标文本进行实体分类,得到目标文本对应的目标实体类别,以快速地从非结构化文本中提取出实体类别信息,同时,在对目标文本进行实体类别分类时,可以综合考虑目标文本的语义特征、实体特征以及与实体片段对应的边界特征等多维度的文本特征,提高对非结构化文本进行实体类别分类的准确性。
需要说明的是,由于本公开实施例综合考虑目标文本的语义特征、实体特征以及与实体片段对应的边界特征等多维度的文本特征,使得命名实体识别成为字符级别和语义级别结合的多分类任务,能够有效地避免因类别太多而影响实体分类的准确性的问题,大大提升了对目标文本进行命名实体识别的速度和准确性。若将本公开实施例提供的命名实体识别方法应用于情报领域中,可以帮助情报人员快速、准确地提取出其关心的实体类别信息,使情报人员可以科学、高效地开展情报工作。
在本公开另一种实施方式中,在对目标文本进行命名实体识别时,还可能出现名词前具有状语的情况,例如,目标文本中与实体片段对应的目标文本片段为“苏-23发动机”,此时,“苏-23”即为“发动机”的状语,进而引入了外部知识带来的信息增益,为了保证提取结果的准确性,本公开还提出了另一种融入了外部知识带来的信息增益的命名实体识别方法,下面结合图3进行说明。
图3示出了本公开实施例提供的另一种命名实体识别方法的流程示意图。
如图3所示,该命名实体识别方法可以包括如下步骤。
S310、获取待识别的目标文本。
S320、对目标文本进行语义特征编码,得到具有上下文信息的第一编码向量,以及对目标文本进行实体特征编码,得到具有上下文信息的第二编码向量。
S330、基于第一编码向量,提取实体片段对应的边界信息。
其中,S310-S330与图1中所示的S110-S130相似,此处不做赘述。
S340、基于边界信息,从目标文本中提取目标文本片段。
在本公开实施例中,在计算设备得到实体片段对应的边界信息之后,还可以基于边界信息,从目标文本中提取目标文本片段,以基于目标文本片段获取外部知识带来的信息增益特征。
在实体片段对应的边界信息包括实体片段对应的首个文字的位置和末个文字的位置的情况下,计算设备可以基于实体片段对应的首个文字的位置和末个文字的位置,从目标文本中提取由首个文字的位置开始、到末个文字的位置结束的实体片段对应的各个文字,进而得到目标文本片段。
在实体片段对应的边界信息包括实体片段对应的各个文字的位置的情况下,计算设备可以基于实体片段对应的各个文字的位置,从目标文本中提取实体片段对应的各个文字,进而得到目标文本片段。
S350、基于预设实体库,生成目标文本片段对应的第三表示向量。
在本公开实施例中,在计算设备得到目标文本片段之后,可以基于预设实体库,生成目标文本片段对应的第三表示向量。
在本公开一些实施例中,可以利用预设实体库对目标文本片段进行实体特征编码,以得到目标文本片段对应的第三表示向量。
其中,预设实体库可以为预先设置的用于保存不同的实体型号、实体名称与实体类别之间的对应关系的数据库,由此,可以利用预设实体库实现对目标文本片段的实体特征编码。
可选地,S350可以具体包括:基于预设实体库,对目标文本片段进行实体特征编码,得到具有上下文信息的第三编码向量;将第三编码向量中各向量的均值作为第三表示向量。
计算设备可以通过预先基于预设实体库训练得到的用于提取实体片段对应的文本片段的实体特征的第三BERT模型对目标文本片段进行实体特征编码,即将目标文本片段输入第三BERT模型,得到第三BERT模型输出的具有上下文信息的第三编码向量。
具体地,将目标文本片段输入到第三BERT模型中,便可得到将目标文本片段中每一个文字结合上下文信息编码的字向量,即目标文本片段中每一个文字对应的具有实体特征的字向量,进而由目标文本片段中全部文字的字向量形成第三编码向量,即第三编码向量包括第三BERT模型输出的目标文本片段中全部文字的字向量。
进一步地,计算设备可以计算第三编码向量片段中各向量的均值,得到第三编码向量对应的第三表示向量。
S360、基于第一编码向量、第二编码向量、边界信息和第三表示向量,对目标文本进行实体分类,得到目标文本对应的目标实体类别。
在本公开实施例中,计算设备在得到第一编码向量、第二编码向量、边界信息和第三表示向量之后,可以通过第一编码向量、第二编码向量、边界信息和第三表示向量,对目标文本进行实体分类,得到目标文本对应的目标实体类别。
在本公开一些实施例中,计算设备可以基于边界信息从第一编码向量和第二编码向量中分别提取所需要的向量部分,进而利用提取出的向量部分和第三表示向量对目标文本进行实体分类,得到目标文本对应的目标实体类别。
具体地,S360可以具体包括:基于边界信息,从第一编码向量中提取第一表示向量,以及从第二编码向量中提取第二表示向量;计算第一表示向量、第二表示向量和第三表示向量对应的平均表示向量;基于平均表示向量,对目标文本进行实体分类,得到目标文本对应的目标实体类别。
可选地,提取第一表示向量以及提取第二表示向量的方法已在图1所示的实施例中说明,此处不在赘述。
在一些实施例中,基于平均表示向量,对目标文本进行实体分类,得到目标文本对应的目标实体类别可以具体包括:对平均表示向量进行归一化指数计算,得到目标文本属于各个预设实体类别的概率值;将最大概率值所属的预设实体类别作为目标文本对应的目标实体类别。
具体地,计算设备计算出平均表示向量之后,可以将平均表示向量中的每个分量依次输入预先训练得到的softmax函数中,由softmax函数基于各个分量计算目标文本属于的各个预设实体类别的概率值,然后,将最大概率值所属的预设实体类别作为目标文本对应的目标实体类别,得到对目标文本的实体类别的识别结果。
在本公开实施例中,可以基于第一编码向量、第二编码向量、边界信息和第三表示向量,对目标文本进行实体分类,可见,在对目标文本进行实体类别分类时,可以综合考虑目标文本的语义特征、实体特征、与实体片段对应的边界特征、以及针对预设实体库的实体特征等多维度的文本特征,将实体类别分类过程融入外部知识带来的信息增益,进而避免由于名词的状语带来的类别抽取错误的问题,可以有效的减少误判操作,进一步提高对非结构化文本进行实体类别分类的准确性。例如,目标文本片段为“苏-23发动机”,预设实体库中存在“苏-”系列的飞机实体如“苏-21”,此时,可以确定目标文本片段所属的目标实体类别是航空发动机,而非发动机,由此,可以有效减少误判。
在本公开又一种实施方式中,本公开的命名实体识别方法可以由预先训练好的命名实体识别模型实现,该命名实体识别模型的各个部分可以实现命名实体识别方法的各个步骤。
图4示出了本公开实施例提供的一种命名实体识别模型的原理示意图。
如图4所示,命名实体识别模型主要包括6个子模型,具体为第一BERT模型、第二BERT模型、第三BERT模型、CRF模型、掩膜模型和softmax函数模型。
其中,第一BERT模型和CRF模型主要用于实现文本中实体片段的边缘检测以及生成文本中实体片段对应的编码向量片段,具体地,可以生成目标文本对应的第一编码向量、提取目标文本中实体片段对应的边界信息、以及从第一编码向量中提取第一编码向量片段。第二BERT模型和掩膜模型主要用于实现生成文本中实体片段对应的编码向量片段,具体地,可以生成目标文本对应的第二编码向量、以及从第二编码向量中提取第二编码向量片段。第三BERT模型用于实现生成文本中实体片段对应的文本片段的编码向量,具体地,可以生成目标文本中实体片段对应的目标文本片段的第三编码向量。softmax函数模型用于实现计算各个编码向量对应的平均表示向量以及确定文本所属的实体类别,具体地,可以计算第一编码向量片段、第二编码向量片段和第三编码向量对应的平均表示向量、计算目标文本属于各个预设实体类别的概率值、以及将最大概率值所属的预设实体类别作为目标文本对应的目标实体类别。
其中,Bert模型采用了预训练联合微调的架构,能够更深刻的解读语句内涵,其在微调整阶段表现出快捷、有效等特征,使得命名实体识别模型的泛化性进一步增强,逐渐演变成自然语言处理领域中的较强、较新颖模型。
下面,对上述命名实体识别模型的模型训练方法进行说明。
一、预处理阶段
首先,获取多个文本样本,对每个文本样本进行标注,得到每个文本样本的标签,进而得到多个训练样本,每个训练样本包括一个文本样本和该文本样本的标签。
以类型为长文本的文本样本“米格-17p发动机于去年投入使用。”为例,则可以将文本样本中的每个文字对应的实体标签标注如下。
该文本样本包含较多飞机实体和航空发动机实体,实体类别可以包括飞机实体和航空发动机实体,实体类别标签如下。
实体类别标签 | aircraft | engine |
实体类别 | 飞机 | 航空发动机 |
基于上述的实体标签和实体类别标签,可以得到文本样本的标签如下。
文本样本 | 标签 |
米格-17p发动机于去年投入使用。 | [([0,5],aircraft)] |
其中,[0,5]表示实体片段对应的各个文字的位置。
二、模型训练
将多个文本样本按照8:1:1的比例划分为训练集、验证集以及测试集,基于训练集训练命名实体识别模型,在验证集上验证命名实体识别模型的准确性,将CRF模型和softmax函数模型的损失进行加和,由同一个优化器进行优化。
三、模型测试
将训练好的命名实体识别模型应用到测试集上,计算在测试集上的F1得分,来测试命名实体识别模型的泛化能力。综上所述,本公开实施例提供的命名实体识别方法,能够综合考虑目标文本的语义特征、实体特征以及与实体片段对应的边界特征等多维度的文本特征,并且,融合具有实体词典信息的预设实体库来实现多任务命名实体识别,进而在命名实体识别时充分使用已积累的实体词典信息提高命名实体识别的准确率。
图5示出了本公开实施例提供的一种命名实体识别装置的结构示意图。
在本公开实施例中,该命名实体识别装置可以设置于计算设备中。其中,计算设备可以包括电子设备或服务器。电子设备可以包括但不限于诸如笔记本电脑等等的移动终端以及诸如台式计算机等等的固定终端。服务器可以是云服务器或者服务器集群等具有存储及计算功能的设备。
如图5所示,该命名实体识别装置500可以包括文本获取模块510、文本编码模块520、信息提取模块530和实体分类模块540。
该文本获取模块510可以用于获取待识别的目标文本。
该文本编码模块520可以用于对目标文本进行语义特征编码,得到具有上下文信息的第一编码向量,以及对目标文本进行实体特征编码,得到具有上下文信息的第二编码向量。
该信息提取模块530可以用于基于第一编码向量,提取实体片段对应的边界信息。
该实体分类模块540可以用于基于第一编码向量、第二编码向量和边界信息,对目标文本进行实体分类,得到所目标文本对应的目标实体类别。
在本公开实施例中,能够在获取待识别的目标文本后,对目标文本进行语义特征编码,得到具有上下文信息的第一编码向量,并且对目标文本进行实体特征编码,得到具有上下文信息的第二编码向量,进而基于第一编码向量,提取实体片段对应的边界信息,以基于第一编码向量、第二编码向量和边界信息,对目标文本进行实体分类,得到目标文本对应的目标实体类别,以快速地从非结构化文本中提取出实体类别信息,同时,在对目标文本进行实体类别分类时,可以综合考虑目标文本的语义特征、实体特征以及与实体片段对应的边界特征等多维度的文本特征,提高对非结构化文本进行实体类别分类的准确性。
在本公开一些实施例中,该信息提取模块530可以包括标签生成单元和第一提取单元。
该标签生成单元可以用于基于第一编码向量,生成目标文本对应的标签数据,标签数据包括目标文本中每个文字对应的实体标签。
该第一提取单元可以用于基于标签数据,提取实体片段对应的边界信息。
在本公开一些实施例中,该实体分类模块540可以包括第二提取单元、第一计算单元和第一分类单元。
该第二提取单元可以用于基于边界信息,从第一编码向量中提取第一表示向量,以及从第二编码向量中提取第二表示向量。
该第一计算单元可以用于计算第一表示向量和第二表示向量对应的平均表示向量。
该第一分类单元可以用于基于平均表示向量,对目标文本进行实体分类,得到目标文本对应的目标实体类别。
在本公开一些实施例中,该命名实体识别装置500还可以包括实体提取模块和向量生成模块。
该实体提取模块可以用于基于边界信息,从目标文本中提取目标实体片段。
该向量生成模块可以用于基于预设实体库,生成目标实体片段对应的第三表示向量。
相应地,该实体分类模块540可以具体用于基于第一编码向量、第二编码向量、边界信息和第三表示向量,对目标文本进行实体分类,得到目标文本对应的目标实体类别。
在本公开一些实施例中,该向量生成模块还可以包括向量编码单元和第二计算单元。
该向量编码单元可以用于基于预设实体库,对目标实体片段进行实体特征编码,得到具有上下文信息的第三编码向量。
该第二计算单元可以用于将第三编码向量中各向量的均值作为第三表示向量。
在本公开一些实施例中,该实体分类模块540还可以包括第三提取单元、第三计算单元和第二分类单元。
该第三提取单元可以用于基于述边界信息,从第一编码向量中提取第一表示向量,以及从第二编码向量中提取第二表示向量。
该第三计算单元可以用于计算第一表示向量、第二表示向量和第三表示向量对应的平均表示向量。
该第二分类单元可以用于基于平均表示向量,对目标文本进行实体分类,得到目标文本对应的目标实体类别。
在本公开一些实施例中,第一提取单元或第二提取单元还可以具体用于基于边界信息,从第一编码向量中提取实体片段对应的第一编码向量片段,以及从第二编码向量中提取实体片段对应的第二编码向量片段;将第一编码向量片段中各向量的均值作为第一表示向量;将第二编码向量片段中各向量的均值作为第二表示向量。
在本公开一些实施例中,第一分类单元或第二分类单元还可以具体用于对平均表示向量进行归一化指数计算,得到目标文本属于各个预设实体类别的概率值;将最大概率值所属的预设实体类别作为目标文本对应的目标实体类别。
需要说明的是,图5所示的命名实体识别装置500可以执行图1和图3所示的方法实施例中的各个步骤,并且实现图1和图3所示的方法实施例中的各个过程和效果,在此不做赘述。
图6示出了本公开实施例提供的一种命名实体识别设备的结构示意图。
在本公开一些实施例中,图6所示的命名实体识别设备可以为计算设备。其中,计算设备可以包括电子设备或服务器。电子设备可以包括但不限于诸如笔记本电脑等等的移动终端以及诸如台式计算机等等的固定终端。服务器可以是云服务器或者服务器集群等具有存储及计算功能的设备。
如图6所示,该命名实体识别设备可以包括处理器601以及存储有计算机程序指令的存储器602。
具体地,上述处理器601可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器602可以包括用于信息或指令的大容量存储器。举例来说而非限制,存储器602可以包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个及其以上这些的组合。在合适的情况下,存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器602可在综合网关设备的内部或外部。在特定实施例中,存储器602是非易失性固态存储器。在特定实施例中,存储器602包括只读存储器(Read-Only Memory,ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable ROM,PROM)、可擦除PROM(Electrical Programmable ROM,EPROM)、电可擦除PROM(Electrically ErasableProgrammable ROM,EEPROM)、电可改写ROM(Electrically Alterable ROM,EAROM)或闪存,或者两个或及其以上这些的组合。
处理器601通过读取并执行存储器602中存储的计算机程序指令,以执行本公开实施例所提供的命名实体识别方法的步骤。
在一个示例中,该命名实体识别设备还可包括收发器603和总线604。其中,如图6所示,处理器601、存储器602和收发器603通过总线604连接并完成相互间的通信。
总线604包括硬件、软件或两者。举例来说而非限制,总线可包括加速图形端口(Accelerated Graphics Port,AGP)或其他图形总线、增强工业标准架构(ExtendedIndustry Standard Architecture,EISA)总线、前端总线(Front Side BUS,FSB)、超传输(Hyper Transport,HT)互连、工业标准架构(Industrial Standard Architecture,ISA)总线、无限带宽互连、低引脚数(Low Pin Count,LPC)总线、存储器总线、微信道架构(MicroChannel Architecture,MCA)总线、外围控件互连(Peripheral Component Interconnect,PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial Advanced TechnologyAttachment,SATA)总线、视频电子标准协会局部(Video Electronics StandardsAssociation Local Bus,VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线604可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
本公开实施例还提供了一种计算机可读存储介质,该存储介质可以存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现本公开实施例所提供的命名实体识别方法。
上述的存储介质可以例如包括计算机程序指令的存储器602,上述指令可由命名实体识别设备的处理器601执行以完成本公开实施例所提供的命名实体识别方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(Random Access Memory,RAM)、光盘只读存储器(CompactDiscROM,CD-ROM)、磁带、软盘和光数据存储设备等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (11)
1.一种命名实体识别方法,其特征在于,包括:
获取待识别的目标文本;
对所述目标文本进行语义特征编码,得到具有上下文信息的第一编码向量,以及对所述目标文本进行实体特征编码,得到具有上下文信息的第二编码向量;
基于所述第一编码向量,提取实体片段对应的边界信息;
基于所述第一编码向量、所述第二编码向量和所述边界信息,对所述目标文本进行实体分类,得到所述目标文本对应的目标实体类别。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一编码向量,提取实体片段对应的边界信息,包括:
基于所述第一编码向量,生成所述目标文本对应的标签数据,所述标签数据包括所述目标文本中每个文字对应的实体标签;
基于所述标签数据,提取所述实体片段对应的边界信息。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第一编码向量、所述第二编码向量和所述边界信息,对所述目标文本进行实体分类,得到所述目标文本对应的目标实体类别,包括:
基于所述边界信息,从所述第一编码向量中提取第一表示向量,以及从所述第二编码向量中提取第二表示向量;
计算所述第一表示向量和所述第二表示向量对应的平均表示向量;
基于所述平均表示向量,对所述目标文本进行实体分类,得到所述目标文本对应的目标实体类别。
4.根据权利要求1所述的方法,其特征在于,在所述基于所述第一编码向量,提取实体片段对应的边界信息之后,所述方法还包括:
基于所述边界信息,从所述目标文本中提取目标文本片段;
基于预设实体库,生成所述目标文本片段对应的第三表示向量;
其中,所述基于所述第一编码向量、所述第二编码向量和所述边界信息,对所述目标文本进行实体分类,得到所述目标文本对应的目标实体类别,包括:
基于所述第一编码向量、所述第二编码向量、所述边界信息和所述第三表示向量,对所述目标文本进行实体分类,得到所述目标文本对应的目标实体类别。
5.根据权利要求4所述的方法,其特征在于,所述基于预设实体库,生成所述目标文本片段对应的第三表示向量,包括:
基于所述预设实体库,对所述目标文本片段进行实体特征编码,得到具有上下文信息的第三编码向量;
将所述第三编码向量中各向量的均值作为所述第三表示向量。
6.根据权利要求4所述的方法,其特征在于,所述基于所述第一编码向量、所述第二编码向量、所述边界信息和所述第三表示向量,对所述目标文本进行实体分类,得到所述目标文本对应的目标实体类别,包括:
基于所述边界信息,从所述第一编码向量中提取第一表示向量,以及从所述第二编码向量中提取第二表示向量;
计算所述第一表示向量、所述第二表示向量和所述第三表示向量对应的平均表示向量;
基于所述平均表示向量,对所述目标文本进行实体分类,得到所述目标文本对应的目标实体类别。
7.根据权利要求3或6所述的方法,其特征在于,所述基于所述边界信息,从所述第一编码向量中提取第一表示向量,以及从所述第二编码向量中提取第二表示向量,包括:
基于所述边界信息,从所述第一编码向量中提取所述实体片段对应的第一编码向量片段,以及从所述第二编码向量中提取所述实体片段对应的第二编码向量片段;
将所述第一编码向量片段中各向量的均值作为所述第一表示向量;
将所述第二编码向量片段中各向量的均值作为所述第二表示向量。
8.根据权利要求3或6所述的方法,其特征在于,所述基于所述平均表示向量,对所述目标文本进行实体分类,得到所述目标文本对应的目标实体类别,包括:
对所述平均表示向量进行归一化指数计算,得到所述目标文本属于各个预设实体类别的概率值;
将最大概率值所属的预设实体类别作为所述目标文本对应的目标实体类别。
9.一种命名实体识别装置,其特征在于,包括:
文本获取模块,用于获取待识别的目标文本;
文本编码模块,用于对所述目标文本进行语义特征编码,得到具有上下文信息的第一编码向量,以及对所述目标文本进行实体特征编码,得到具有上下文信息的第二编码向量;
信息提取模块,用于基于所述第一编码向量,提取实体片段对应的边界信息;
实体分类模块,用于基于所述第一编码向量、所述第二编码向量和所述边界信息,对所述目标文本进行实体分类,得到所述目标文本对应的目标实体类别。
10.一种命名实体识别设备,其特征在于,包括:
处理器;
存储器,用于存储可执行指令;
其中,所述处理器用于从所述存储器中读取所述可执行指令,并执行所述可执行指令以实现上述权利要求1-8中任一项所述的命名实体识别方法。
11.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,当所述计算机程序被处理器执行时,使得处理器实现用上述权利要求1-8中任一项所述的命名实体识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111389485.4A CN114139541B (zh) | 2021-11-22 | 2021-11-22 | 命名实体识别方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111389485.4A CN114139541B (zh) | 2021-11-22 | 2021-11-22 | 命名实体识别方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114139541A true CN114139541A (zh) | 2022-03-04 |
CN114139541B CN114139541B (zh) | 2022-08-02 |
Family
ID=80390715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111389485.4A Active CN114139541B (zh) | 2021-11-22 | 2021-11-22 | 命名实体识别方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114139541B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080052262A1 (en) * | 2006-08-22 | 2008-02-28 | Serhiy Kosinov | Method for personalized named entity recognition |
CN109165384A (zh) * | 2018-08-23 | 2019-01-08 | 成都四方伟业软件股份有限公司 | 一种命名实体识别方法及装置 |
CN111241839A (zh) * | 2020-01-16 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 实体识别方法、装置、计算机可读存储介质和计算机设备 |
CN112016313A (zh) * | 2020-09-08 | 2020-12-01 | 迪爱斯信息技术股份有限公司 | 口语化要素识别方法及装置、警情分析系统 |
EP3767516A1 (en) * | 2019-07-18 | 2021-01-20 | Ricoh Company, Ltd. | Named entity recognition method, apparatus, and computer-readable recording medium |
CN112699682A (zh) * | 2020-12-11 | 2021-04-23 | 山东大学 | 一种基于可组合弱认证器的命名实体识别方法和装置 |
CN113190656A (zh) * | 2021-05-11 | 2021-07-30 | 南京大学 | 一种基于多标注框架与融合特征的中文命名实体抽取方法 |
-
2021
- 2021-11-22 CN CN202111389485.4A patent/CN114139541B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080052262A1 (en) * | 2006-08-22 | 2008-02-28 | Serhiy Kosinov | Method for personalized named entity recognition |
CN109165384A (zh) * | 2018-08-23 | 2019-01-08 | 成都四方伟业软件股份有限公司 | 一种命名实体识别方法及装置 |
EP3767516A1 (en) * | 2019-07-18 | 2021-01-20 | Ricoh Company, Ltd. | Named entity recognition method, apparatus, and computer-readable recording medium |
CN111241839A (zh) * | 2020-01-16 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 实体识别方法、装置、计算机可读存储介质和计算机设备 |
CN112016313A (zh) * | 2020-09-08 | 2020-12-01 | 迪爱斯信息技术股份有限公司 | 口语化要素识别方法及装置、警情分析系统 |
CN112699682A (zh) * | 2020-12-11 | 2021-04-23 | 山东大学 | 一种基于可组合弱认证器的命名实体识别方法和装置 |
CN113190656A (zh) * | 2021-05-11 | 2021-07-30 | 南京大学 | 一种基于多标注框架与融合特征的中文命名实体抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114139541B (zh) | 2022-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019184217A1 (zh) | 热点事件分类方法、装置及存储介质 | |
CN112270196B (zh) | 实体关系的识别方法、装置及电子设备 | |
CN111460820B (zh) | 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置 | |
CN107943911A (zh) | 数据抽取方法、装置、计算机设备及可读存储介质 | |
CN107341143B (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
CN111858843B (zh) | 一种文本分类方法及装置 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN111460250A (zh) | 用于画像的数据的清洗方法、装置、介质及电子设备 | |
CN113254643B (zh) | 文本分类方法、装置、电子设备和 | |
CN109993216B (zh) | 一种基于k最近邻knn的文本分类方法及其设备 | |
CN115544240B (zh) | 文本类敏感信息识别方法、装置、电子设备和存储介质 | |
CN115953123A (zh) | 机器人自动化流程的生成方法、装置、设备及存储介质 | |
CN116150201A (zh) | 敏感数据识别方法、装置、设备及计算机存储介质 | |
CN113934848B (zh) | 一种数据分类方法、装置和电子设备 | |
CN111325033A (zh) | 实体识别方法、装置、电子设备及计算机可读存储介质 | |
CN113204956B (zh) | 多模型训练方法、摘要分段方法、文本分段方法及装置 | |
CN114495113A (zh) | 文本分类方法和文本分类模型的训练方法、装置 | |
CN112395881A (zh) | 物料标签的构建方法、装置、可读存储介质及电子设备 | |
CN116561320A (zh) | 一种汽车评论的分类方法、装置、设备及介质 | |
CN114139541B (zh) | 命名实体识别方法、装置、设备及介质 | |
CN110705258A (zh) | 文本实体识别方法及装置 | |
CN115827867A (zh) | 文本类型的检测方法及装置 | |
CN108304366B (zh) | 一种上位词检测方法及设备 | |
CN113836297B (zh) | 文本情感分析模型的训练方法及装置 | |
CN112100368B (zh) | 对话交互意图的识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |