CN114330345A - 命名实体识别方法、训练方法、装置、电子设备及介质 - Google Patents
命名实体识别方法、训练方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN114330345A CN114330345A CN202111608355.5A CN202111608355A CN114330345A CN 114330345 A CN114330345 A CN 114330345A CN 202111608355 A CN202111608355 A CN 202111608355A CN 114330345 A CN114330345 A CN 114330345A
- Authority
- CN
- China
- Prior art keywords
- named entity
- tag
- sample
- sequence
- confidence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000002372 labelling Methods 0.000 claims description 89
- 238000011156 evaluation Methods 0.000 claims description 47
- 238000000605 extraction Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 abstract description 21
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 239000000126 substance Substances 0.000 abstract 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 abstract 1
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 230000004913 activation Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种命名实体识别方法、命名实体识别模型的训练方法、装置、电子设备、存储介质以及程序产品,涉及数据处理技术领域,尤其涉及知识图谱、深度学习等人工智能技术领域,具体涉及医疗、军事、金融、能源、电力、化工、科研、水利、运输、文娱、教育等技术领域。具体实现方案为:提取待识别文本中的特征,得到特征向量序列;对特征向量序列进行全局命名实体识别,得到全局识别结果;对特征向量序列进行局部命名实体识别,得到局部识别结果;以及基于全局识别结果和局部识别结果,确定待识别文本的命名实体标签序列。
Description
技术领域
本公开涉及数据处理技术领域,尤其涉及知识图谱、深度学习等人工智能技术领域。具体涉及命名实体识别方法、命名实体识别模型的训练方法、装置、电子设备、存储介质以及程序产品。
背景技术
命名实体识别是自然语言处理中的一项基础性任务。命名实体识别技术可以应用于关系抽取、事件抽取、知识图谱、机器翻译、问答搜索等诸多领域。
发明内容
本公开提供了一种命名实体识别方法、命名实体识别模型的训练方法、装置、电子设备、存储介质以及程序产品。
根据本公开的一方面,提供了一种命名实体识别方法,包括:提取待识别文本中的特征,得到特征向量序列;对所述特征向量序列进行全局命名实体识别,得到全局识别结果;对所述特征向量序列进行局部命名实体识别,得到局部识别结果;以及基于所述全局识别结果和局部识别结果,确定所述待识别文本的命名实体标签序列,其中,所述命名实体标签序列包括至少一个命名实体标签,所述待识别文本包括至少一个字符,所述至少一个命名实体标签与所述至少一个字符一一对应,所述命名实体标签用于表征所述字符是否为命名实体。
根据本公开的另一方面,提供了一种命名实体识别模型的训练方法,包括:利用训练样本训练初始命名实体识别模型,得到命名实体识别模型;其中,所述命名实体识别模型用于:将待识别文本进行向量化处理,得到特征向量序列;对所述特征向量序列进行全局命名实体识别,得到全局识别结果;对所述特征向量序列进行局部命名实体识别,得到局部识别结果;以及基于所述全局识别结果和局部识别结果,确定所述待识别文本的命名实体标签序列,其中,所述命名实体标签序列包括至少一个标签,所述待识别文本包括至少一个字符,所述至少一个命名实体标签与所述至少一个字符一一对应,所述命名实体标签用于表征所述字符是否为命名实体。
根据本公开的另一方面,提供一种命名实体识别装置,包括:提取模块,用于提取待识别文本中的特征,得到特征向量序列;全局识别模块,用于对所述特征向量序列进行全局命名实体识别,得到全局识别结果;局部识别模块,用于对所述特征向量序列进行局部命名实体识别,得到局部识别结果;以及结果确定模块,用于基于所述全局识别结果和局部识别结果,确定所述待识别文本的命名实体标签序列,其中,所述命名实体标签序列包括至少一个命名实体标签,所述待识别文本包括至少一个字符,所述至少一个命名实体标签与所述至少一个字符一一对应,所述命名实体标签用于表征所述字符是否为命名实体。
根据本公开的另一方面,提供了一种命名实体识别模型的训练装置,包括:训练模块,用于利用训练样本训练初始命名实体识别模型,得到命名实体识别模型;其中,所述命名实体识别模型用于:将待识别文本进行向量化处理,得到特征向量序列;对所述特征向量序列进行全局命名实体识别,得到全局识别结果;对所述特征向量序列进行局部命名实体识别,得到局部识别结果;以及基于所述全局识别结果和局部识别结果,确定所述待识别文本的命名实体标签序列,其中,所述命名实体标签序列包括至少一个标签,所述待识别文本包括至少一个字符,所述至少一个命名实体标签与所述至少一个字符一一对应,所述命名实体标签用于表征所述字符是否为命名实体。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本公开的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如本公开的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如本公开的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示意性示出了根据本公开实施例的可以应用命名实体识别方法及装置的示例性系统架构;
图2示意性示出了根据本公开实施例的命名实体识别方法的流程图;
图3示意性示出了根据本公开实施例的命名实体识别模型的模型架构图;
图4示意性示出了根据本公开另一实施例的命名实体识别方法的流程图;
图5示意性示出了根据本公开实施例的命名实体识别模型的训练方法的流程图;
图6示意性示出了根据本公开实施例的命名实体识别装置的框图;
图7示意性示出了根据本公开实施例的命名实体识别模型的训练装置的框图;以及
图8示意性示出了根据本公开实施例的适于实现命名实体识别方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开提供了一种命名实体识别方法、命名实体识别模型的训练方法、装置、电子设备、存储介质以及程序产品。
根据本公开的实施例,提供了一种命名实体识别方法,包括:提取待识别文本中的特征,得到特征向量序列;对特征向量序列进行全局命名实体识别,得到全局识别结果;对特征向量序列进行局部命名实体识别,得到局部识别结果;以及基于全局识别结果和局部识别结果,确定待识别文本的命名实体标签序列,其中,命名实体标签序列包括至少一个命名实体标签,待识别文本包括至少一个字符,至少一个命名实体标签与至少一个字符一一对应,命名实体标签用于表征字符是否为命名实体。
根据本公开的实施例,命名实体识别方法可以应用于文档语义理解、智能办公、信息流推荐、智能搜索等应用领域。应用范围广、适应性高。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
图1示意性示出了根据本公开实施例的可以应用命名实体识别方法及装置的示例性系统架构。
需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以命名实体识别方法及装置的示例性系统架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本公开实施例提供的命名实体识别方法及装置。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的命名实体识别方法一般可以由终端设备101、102、或103执行。相应地,本公开实施例所提供的命名实体识别装置也可以设置于终端设备101、102、或103中。
或者,本公开实施例所提供的命名实体识别方法一般也可以由服务器105执行。相应地,本公开实施例所提供的命名实体识别装置一般可以设置于服务器105中。本公开实施例所提供的命名实体识别方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的命名实体识别装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
例如,在用户在线检索时,终端设备101、102、103可以获取用户输入的检索信息,然后将获取的检索信息发送给服务器105,由服务器105对检索信息进行语义分析,确定与检索信息相关的命名实体。或者由能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群对检索信息进行语义分析,并确定与检索信息相关的命名实体。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的命名实体识别方法的流程图。
如图2所示,该方法包括操作S210~S240。
在操作S210,提取待识别文本中的特征,得到特征向量序列。
在操作S220,对特征向量序列进行全局命名实体识别,得到全局识别结果。
在操作S230,对特征向量序列进行局部命名实体识别,得到局部识别结果。
在操作S240,基于全局识别结果和局部识别结果,确定待识别文本的命名实体标签序列,其中,命名实体标签序列包括至少一个标签,待识别文本包括至少一个字符,至少一个命名实体标签与至少一个字符一一对应,命名实体标签用于表征字符是否为命名实体。
根据本公开的实施例,命名实体识别(Named Entity Recognition,NER)又称作专名识别,是自然语言处理中的一项基础任务,可以从待识别文本中识别出属于预定义类别的字、词和语段,即,命名实体。
根据本公开的实施例,命名实体可以是指具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、专有名词等。
根据本公开的实施例,可以将待识别文本作为一个字符(Token)序列,每个字符可以指中文中的单个字、英文中的单个词语等。命名实体标签序列中的至少一个标签与待识别文字中的至少一个字符一一对应。命名实体标签用于表征与命名实体标签相对应的字符是否为命名实体、命名实体的类别、命名实体的位置等信息。
根据本公开的实施例,可以通过特征提取的方式来提取待识别文本中的特征,得到特征向量序列。
根据本公开的实施例,全局命名实体识别可以是指利用待识别文本中的全局语义,即上下文之间的依赖关系来进行的命名实体识别。
根据本公开的实施例,局部命名实体识别可以是指利用待识别文本中的局部语义来进行的命名实体识别。
根据本公开的实施例,可以通过不同的识别方式,得到不同的识别结果,例如全局识别结果和局部识别结果。可以基于全局识别结果和局部识别结果来确定待识别文本的命名实体标签序列,进而完成命名实体识别任务。
根据本公开的实施例,利用全局命名实体识别和局部命名实体识别来分别处理待识别文本,并基于得到的多个识别结果来确定待识别文本的命名实体标签序列,将多种因素均考虑在内,既考虑到全局语义又结合局部语义,由此提高命名实体标签序列预测的精确度。
根据本公开的实施例,可以设计命名实体识别模型来执行命名实体识别方法。命名实体识别模型可以包括特征提取模块。
根据本公开的实施例,针对操作S210,可以利用特征提取模块来提取待识别文本中的特征,得到特征向量序列。
根据本公开的实施例,待识别文本包括至少一个字符,特征向量序列包括至少一个特征向量,至少一个字符与至少一个特征向量一一对应。
根据本公开的实施例,特征提取模块可以采用ERNIE(Enhanced Representationthrough Knowledge Integration,使用信息实体增强语言表示),但是并不局限于此,还可以采用BERT(Bidirectional Encoder Representations from Transformers,来自变换器的双向编码器表征量)。只要是能够提取待识别文本中的特征,得到特征向量序列的特征提取模块即可。采用ERNIE,更有利于提取中文文本,能够有效提取一词多义的汉字的特征。
根据本公开的实施例,针对操作S220,对特征向量序列进行全局命名实体识别,得到全局识别结果可以包括如下操作。
例如,对特征向量序列进行全局置信度评价,确定全局标签置信度集合序列,作为全局识别结果。全局标签置信度集合序列包括至少一个全局标签置信度集合,至少一个全局标签置信度集合与至少一个字符一一对应。
根据本公开的实施例,命名实体识别模型还可以包括全局置信度评价模块。可以利用全局置信评价模块处理特征向量序列,得到全局标签置信度集合序列。例如,将特征向量序列输入至全局置信度评价模块中,得到全局置信度集合序列。
根据本公开的实施例,全局置信度评价模块可以采用CRF(Conditional RandomField,条件随机场),但是并不局限于此,还可以采用其他用于命名实体识别的置信度评价模块。
根据本公开的实施例,可以利用全局置信度评价模块来学习待识别文本中各个字符之间的关联关系,更好地体现各个字符的命名实体标签之间的强依赖关系。例如,在当前字符的命名实体标签为“O”标签后,出现“B”标签的概率大于出现“I”标签的概率,因为“I”标签不能作为命名实体的开头出现。可以利用全局置信度评价模块通过学习上下文来提高命名实体标签序列的准确度。
根据本公开的实施例,针对操作S230,对特征向量序列进行局部命名实体识别,得到局部识别结果,可以包括如下操作。
例如,对特征向量序列进行局部置信度评价,确定局部标签置信度集合序列,作为局部识别结果。局部标签置信度集合序列包括至少一个局部标签置信度集合,至少一个局部标签置信度集合与至少一个字符一一对应。
根据本公开的实施例,局部置信度评价模块可以采用Softmax(激活函数),但是并不局限于此,还可以采用其他激活函数作为局部置信度评价模块。
可以利用局部置信度评价模块来学习待识别文本中各个字符的局部语义信息。可以更好的利用字符的局部语义表示来确定命名实体标签,而非命名实体标签的标签顺序。
根据本公开的实施例,命名实体识别模型可以仅包括级联的特征提取模块和全局置信度评价模块,也可以仅包括级联的特征提取模块和局部置信度评价模块,还可以包括特征提取模块、并联的全局置信度评价模块和局部置信度评价模块。
利用本公开实施例提供的具有并联的全局置信度评价模块和局部置信度评价模块的命名实体识别模型,可以既体现各个字符之间的关联关系,还可以学习各个字符各自的局部语义信息,使得最终的命名实体标签序列的结果更为精准、有效。
图3示意性示出了根据本公开实施例的命名实体识别模型的模型架构图。
如图3所示,命名实体识别模型可以包括特征提取模块310。可以利用特征提取模块310处理待识别文本320,得到特征向量序列330。
命名实体识别模型还可以包括全局置信度评价模块340和局部置信度评价模块350。可以利用全局置信评价模块340处理特征向量序列330,得到全局标签置信度集合序列。可以利用局部置信度评价模块350处理特征向量序列330,得到局部标签置信度集合序列。
根据本公开的实施例,针对待识别文本中的每个字符,从全局标签置信度集合序列中确定与字符相匹配的全局标签置信度集合,从局部标签置信度集合序列中确定与字符相匹配的局部标签置信度集合。全局标签置信度集合包括多个全局标签置信度,多个全局标签置信度与多个命名实体类别一一对应。局部标签置信度集合包括多个局部标签置信度,多个局部标签置信度与多个命名实体类别一一对应。针对多个命名实体类别中的每个命名实体类别,可以将与命名实体类别相对应的局部标签置信度和与命名实体类别相对应的全局标签置信度来进行比较,将结果数值最大或者最小的作为标签置信度,但是并不局限于此,还可以利用加权平均方法,为全局标签置信度和局部标签置信度分别配置不同的权重,加权求和来作为标签置信度。
根据本公开的实施例,可以基于标签置信度集合序列来确定待识别文本的命名实体标签序列。例如,针对标签置信度集合序列中的每个标签置信度集合,可以基于标签置信度集合来确定命名实体标签序列中与标签置信度集合相对应的命名实体标签。可以基于标签置信度集合中最大的标签置信度来作为目标标签置信度,即命名实体标签,但是并不局限于此,还可以根据实际情况自行设置。
根据本公开的实施例,可以基于多个字符各自的命名实体标签,得到命名实体标签序列。
例如,每个标签置信度集合中的标签置信度C′(X′i)可以通过公式(1)所示来确定。
C′(X′i)=(C′全(X′i)+C′局(X′i))/2; (1)
其中,C′全(X′i)表示全局标签置信度,C′局(X′i)表示局部标签置信度,X′i表示第i标签类别的X′字符。
例如,以“BB小学”中的第一个字符“B”并结合图3为例说明。利用全局置信评价模块处理特征向量序列,得到字符“B”的全局标签置信度集合,例如标签“N”的全局标签置信度为0.341、标签“B-PER”的全局标签置信度为0.812、标签“I-PER”的全局标签置信度为0.246、标签“B-LOC”的全局标签置信度为0.742、标签“I-LOC”的全局标签置信度为0.757。利用局部置信评价模块处理特征向量序列,得到字符“B”的局部标签置信度集合,例如标签“N”的局部标签置信度为0.215、标签“B-PER”的局部标签置信度为0.612、标签“I-PER”的局部标签置信度为0.546、标签“B-LOC”的局部标签置信度为0.912、标签“I-LOC”的局部标签置信度为0.757。
基于以上结果并利用公式(1)可以确定标签置信度集合中的标签“N”的标签置信度为0.278、标签“B-PER”的标签置信度为0.712、标签“I-PER”的标签置信度为0.396、标签“B-LOC”的标签置信度为0.872、标签“I-LOC”的标签置信度为0.757。
基于标签置信度集合中最大的标签置信度来作为目标标签置信度。则,通过以上计算可以确定针对字符“B”,命名实体标签为“B-LOC”。
图4示意性示出了根据本公开另一实施例的命名实体识别方法的流程图。
如图4所示,该方法包括操作S410~S440。
在操作S410,将待识别文本输入至命名实体识别模型中,得到待识别文本的命名实体标签序列。
在操作S420,基于命名实体标签序列,从待识别文本中确定第一实体集合。
在操作S430,基于预定命名实体匹配规则,从待识别文本中确定第二实体集合。
在操作S440,基于第一实体集合和第二实体集合,确定目标实体集合。
根据本公开的实施例,预定命名实体匹配规则可以是利用预定命名实体词典来进行的命名实体匹配。预定命名实体词典可以是指预定命名实体与命名实体的类别之间的映射关系的词典。可以根据预定命名实体词典处理具有专业领域命名实体的待识别文本,例如以化学领域的化合物产物作为的命名实体、以生物领域的基因序列命名的命名实体或者中医药领域的药物名称作为的命名实体等。可以利用预定命名实体词典来突破通过内容理解任务对于行业领域的限制,提高对专业词汇、字符的命名实体识别。
根据本公开的实施例,在确定第一实体集合和第二实体集合的情况下,可以将第一实体集合和第二实体集合取并集处理,来确定目标实体集合。但是并不局限于此。还可以将第一实体集合和第二实体集合取交集处理,来确定目标实体集合。可以根据实际情况来确定具体的处理方式。
根据本公开的实施例,将第一实体集合和第二实体集合取并集处理,来确定目标实体集合,可以将利用命名实体识别模型来识别待识别文本中的命名实体的方式,与利用规则和预定命名实体词典来识别待识别文本中的命名实体的方式相结合,提高命名实体的召回率,以召回业务强依赖的专业命名实体。
图5示意性示出了根据本公开实施例的命名实体识别模型的训练方法的流程图。
如图5所示,该方法包括操作S510~S520。
在操作S510,获取训练样本。
在操作S520,利用训练样本训练初始命名实体识别模型,得到命名实体识别模型;命名实体识别模型用于:将待识别文本进行向量化处理,得到特征向量序列;对特征向量序列进行全局命名实体识别,得到全局识别结果;对特征向量序列进行局部命名实体识别,得到局部识别结果;以及基于全局识别结果和局部识别结果,确定待识别文本的命名实体标签序列,其中,命名实体标签序列包括至少一个标签,待识别文本包括至少一个字符,至少一个命名实体标签与至少一个字符一一对应,命名实体标签用于表征字符是否为命名实体。
根据本公开的实施例,命名实体识别模型的训练方法可以包括操作S510和操作S520,但是并不局限于此,还可以仅包括操作S520。
根据本公开的实施例,训练样本包括样本文本和样本文本的样本标注结果序列;样本文本包括至少一个样本字符,待确认样本标注结果序列包括至少一个待确认样本标注结果,至少一个样本字符与至少一个待确认样本标注结果一一对应。
根据本公开的实施例,针对操作S520,利用训练样本训练初始命名实体识别模型,得到命名实体识别模型,可以包括如下操作。
例如,将样本文本输入至初始命名实体识别模型中,得到样本标签置信度集合序列;基于待确认样本标注结果序列和样本标签置信度集合序列,确定目标样本标注结果序列;基于目标样本标注结果序列和样本命名实体标签序列,调整初始命名实体识别模型的参数,得到命名实体识别模型。
根据本公开的实施例,训练样本可以包括样本文本和已标注的待确认样本标注结果序列。可以利用训练样本来训练初始命名实体识别模型,以使得训练后的命名实体识别模型能够从待识别文本中识别出预定义类别的命名实体。例如包括人名、地名、组织机构名、专有名词等的命名实体。
根据本公开的实施例,待确认样本标注结果序列可以是通过远程监督方式得到的标注数据,例如通过规则、词典匹配的方式得到的标注数据。也可以是通过人工标注方式得到的标注数据。只要是通过样本文本得到的用于表征命名实体类别结果的方式即可。
根据本公开的实施例,可以利用初始命名实体识别模型来处理样本文本,得到样本标签置信度集合序列,利用样本标签置信度集合序列来验证待确认样本标注结果序列,得到目标样本标注结果序列。将目标样本标注结果序列作为样本文本的真实标注结果,将样本标签置信度集合序列作为预测结果,利用真实标注结果和预测结果来调整初始命名实体识别模型的参数,由此得到命名实体识别模型。
利用本公开实施例提供的命名实体识别模型的训练方法,可以利用初始命名实体识别模型得到的预测结果即样本标签置信度集合序列来校正待确认样本标注结果序列,将确认后的目标样本标注结果序列来作为真实标注结果,即利用置信度对比估计机制来对待确认样本标注结果进行校准,以此提高训练样本的准确性。进而解决利用远程监督标注数据得到的待确认标注结果序列中存在大量噪声的问题。
根据本公开的实施例,训练样本中存在噪声一般指待确认样本标注结果序列中存在错误。例如,待确认样本标注结果序列中存在实体边界噪声、实体嵌套噪声以及实体类型噪声中的一项或多项噪声。但是并不局限于此。训练样本中的噪声还可以包括漏标噪声。
根据本公开的实施例,可以通过如下操作来降低训练样本的漏标噪声。
例如,获取初始训练样本。初始训练样本可以包括样本文本例如“小A要去BB小学参加田径运动会”,以及初始样本标注结果序列例如“小(B-PER)A(I-PER)要(O)去(O)B(B-LOC)B(I-LOC)小(I-LOC)学(I-LOC)参(O)加(O)田(O)径(O)运(O)动(O)会(O)”。样本文本包括至少一个样本字符,初始样本标注结果序列可以是例如括号里面的用于表征是否是命名实体的初始样本标注结果。至少一个样本字符与至少一个初始样本标注结果一一对应。
根据本公开的实施例,样本类型可以包括正样本类型和负样本类型。其中,初始样本标注结果为用于表征命名实体类别的例如B-PER、I-PER、B-LOC、I-LOC等的样本字符为正样本类型,初始样本标注结果为用于表征非命名实体的例如O的样本字符为负样本类型。可以针对至少一个样本字符中的每个样本字符,基于初始样本标注结果,确定样本字符的样本类型。
根据本公开的实施例,基于样本类型,从至少一个样本字符中确定至少一个目标样本字符。针对至少一个目标样本字符中的每个目标样本字符,利用预定样本标注结果更新与目标样本字符相对应的初始样本标注结果。将至少一个目标样本字符各自的预定样本标注结果和初始样本标注结果中除至少一个目标样本字符各自的预定样本标注结果外的初始样本标注结果,作为待确认样本标注结果序列。
根据本公开的实施例,目标样本字符可以是正样本类型的样本字符,也可以是负样本类型的样本字符。可以将样本文本中的负样本类型的样本字符全部作为目标样本字符,也可以将样本文本中的部分负样本类型的样本字符作为目标样本字符。例如,将“参(O)加(O)”作为目标样本字符。可以将预定样本标注结果“参(N)加(N)”来更新目标样本字符。得到样本文本“小A要去BB小学参加田径运动会”,以及待确认样本标注结果序列例如“小(B-PER)A(I-PER)要(O)去(O)B(B-LOC)B(I-LOC)小(I-LOC)学(I-LOC)参(N)加(N)田(O)径(O)运(O)动(O)会(O)”的训练样本。
根据本公开的实施例,在利用训练样本训练初始命名实体识别模型的过程中,可以仅涉及利用正样本类型的样本字符来训练初始命名实体识别模型,但是并不局限于此,还可以利用负采样机制的方式,来将样本文本中的部分负样本类型的样本字符更新为目标样本字符,进而利用正样本类型的样本字符与负样本类型的目标样本字符共同来训练初始名声实体识别模型。
利用本公开实施例的负采样机制的方式来确定训练样本,可以将部分负样本字符的初始样本标注结果随机更新为待确认样本标注结果,例如利用新增加的用于表征负样本字符的预定样本标注结果“N”来更新“O”。利用包括负样本字符的训练样本来训练初始命名实体识别模型,避免漏标样本字符被标注为“O”而导致的无法参与初始命名实体识别模型训练的问题。由此来降低负样本的初始样本标注结果中包含漏标实体的风险,进而解决了数据漏标的问题。
根据本公开的实施例,样本标签置信度集合序列可以包括至少一个样本标签置信度集合,至少一个样本字符与至少一个样本标签置信度集合一一对应,待确认样本标注结果序列可以包括至少一个待确认样本标注结果,至少一个样本字符与至少一个待确认样本标注结果一一对应。
根据本公开的实施例,基于样本标签置信度集合序列和待确认样本标注结果序列,确定样本文本的目标样本标注结果序列,可以通过如下操作来执行。
例如,针对至少一个样本字符中的每个样本字符,基于待确认样本标注结果序列中的与样本字符相对应的待确认样本标注结果,确定样本字符的样本类型。响应于样本字符的样本类型为负样本类型,确定样本字符的目标样本标注结果为用于表征非命名实体的第二目标样本标注结果。
根据本公开的实施例,负样本类型的样本字符可以指待确认样本标注结果为“N”的样本字符。可以针对负样本类型的样本字符,将样本字符的目标样本标注结果确定为用于表征非命名实体的第二目标样本标注结果,例如用于表征非命名实体的第二目标样本标注结果为标签“N”,数值为1。
根据本公开的实施例,针对至少一个样本字符中的每个样本字符,基于待确认样本标注结果序列中的与样本字符相对应的待确认样本标注结果,确定样本字符的样本类型。响应于样本字符的样本类型为正样本类型,基于样本标签置信度集合序列中与样本字符相对应的样本标签置信度集合,确定样本字符的目标样本标注结果为用于表征命名实体的第一目标样本标注结果。
根据本公开的实施例,样本标签置信度集合可以包括多个类别的标签的置信度的集合。例如,样本标签置信度集合可以包括用于表征非命名实体标签“N”和“O”的置信度、用于表征开始位置-人物类别的命名实体标签“B-PER”的置信度、用于表征中间位置-人物类别的命名实体标签“I-PER”的置信度、用于表征开始位置-地点类别的命名实体标签“B-LOC”的置信度、用于表征中间位置-地点类别的命名实体标签“I-LOC”的置信度。可以基于待确认样本标注结果,以及样本标签置信度集合中的“B-PER”的置信度、“I-PER”的置信度、“B-LOC”的置信度、“I-LOC”的置信度来确定第一目标样本标注结果。
根据本公开的实施例,目标位置置信度可以指样本标签置信度集合中的与位置标签的置信度相关的结果。例如,待确认样本标注结果为“B-PER”,则目标位置置信度可以指样本标签置信度集合中的“B-PER”的置信度C(B-PER)与“B-LOC”的置信度C(B-LOC)之和,也可以是单一的样本标签置信度集合中的“B-PER”的置信度C(B-PER),还可以是如公式(2)所示的位置置信度SL。
SL=Max{[C(B-PER)+C(B-LOC)],[C(I-PER)+C(I-LOC)]}; (2)
根据本公开的实施例,目标类别置信度可以指样本标签置信度集合中的与类别标签的置信度相关的结果。例如,待确认样本标注结果为“B-PER”,则目标类别置信度可以指样本标签置信度集合中的“B-PER”的置信度与“I-PER”的置信度之和,也可以是单一的样本标签置信度集合中的“B-PER”的置信度。还可以是如公式(3)所示的类别置信度SC。
SC=Max{[C(B-PER)+C(I-PER)],[C(B-LOC)+C(I-LOC)]}; (3)
根据本公开的实施例,基于目标位置置信度和目标类别置信度,确定样本字符的目标样本标注结果为用于表征命名实体的第一目标样本标注结果。
例如,在目标类别置信度SC大于目标位置置信度SL的情况下,可以将与类别相关的标签“B-PER”和“I-PER”均确定为1,其他标签确定为0,作为第一目标样本标注结果。在目标类别置信度SC小于目标位置置信度SL的情况下,可以将与位置相关的标签“B-LOC”和“B-PER”均确定为1,其他标签确定为0,作为第一目标样本标注结果。
可以利用含有例如实体边界噪声、实体嵌套噪声、实体类型噪声等的训练样本,利用目标位置置信度和目标类别置信度来校正待确认样本标注结果的准确性,使得利用包括噪声的训练样本来训练命名实体识别模型,提高训练后的命名实体识别模型的迁移性和鲁棒性。
根据本公开的实施例,初始命名实体识别模型可以包括初始特征提取模块。可以利用初始特征提取模块处理样本文本,得到样本特征向量序列。
根据本公开的实施例,初始特征提取模块可以采用ERNIE,但是并不局限于此,还可以采用BERT。只要是能够提取样本文本中的特征,得到样本特征向量序列的初始特征提取模块即可。采用ERNIE,更有利于提取中文文本,能够有效提取一词多义的汉字的特征。
根据本公开的实施例,样本文本包括至少一个样本字符,样本特征向量序列包括至少一个样本特征向量,至少一个样本字符与至少一个样本特征向量一一对应。例如,样本字符“小”与样本特征向量“E0”对应,样本字符“A”与样本特征向量“E1”对应,在此不再赘述。
根据本公开的实施例,初始命名实体识别模型还可以包括初始全局置信度评价模块和初始局部置信度评价模块。可以利用初始全局置信评价模块处理样本特征向量序列,得到全局样本标签置信度集合序列。可以利用初始局部置信度评价模块处理样本特征向量序列,得到局部样本标签置信度集合序列。可以基于全局样本标签置信度集合序列和局部样本标签置信度集合序列,得到样本标签置信度集合序列。
根据本公开的实施例,全局样本标签置信度集合序列包括至少一个全局样本标签置信度集合,至少一个全局样本标签置信度集合与至少一个样本字符一一对应。局部样本标签置信度集合序列包括至少一个局部样本标签置信度集合,至少一个局部样本标签置信度集合与至少一个样本字符一一对应。
根据本公开的实施例,可以基于全局样本标签置信度集合序列和局部样本标签置信度集合序列来确定样本标签置信度集合序列。样本标签置信度集合序列可以包括至少一个样本标签置信度集合,至少一个样本标签置信度集合与至少一个样本字符一一对应。
根据本公开的实施例,可以将全局样本标签置信度集合中的全局样本标签置信度和局部样本标签置信度集合中的局部样本标签置信度来进行比较,将结果数值最大或者最小的作为样本标签置信度,但是并不局限于此,还可以利用加权平均方法,为全局样本标签置信度和局部样本标签置信度分别配置不同的权重,加权求和来作为样本标签置信度。
例如,每个样本标签置信度集合中的样本标签置信度C(Xi)可以通过公式(4)所示来确定。
C(Xi)=(C全(Xi)+C局(Xi))/2; (4)
其中,C全(Xi)表示全局样本标签置信度,C局(Xi)表示局部样本标签置信度,Xi表示第i标签类别的X样本字符。
例如,以“BB小学”中的第一个样本字符“B”为例具体说明。利用初始全局置信评价模块处理样本特征向量序列,得到样本字符“B”的全局样本标签置信度集合,例如标签“N”的全局样本标签置信度为0.341、标签“B-PER”的全局样本标签置信度为0.812、标签“I-PER”的全局样本标签置信度为0.246、标签“B-LOC”的全局样本标签置信度为0.742、标签“I-LOC”的全局样本标签置信度为0.757。利用初始局部置信评价模块处理样本特征向量序列,得到样本字符“B”的局部样本标签置信度集合,例如标签“N”的局部样本标签置信度为0.215、标签“B-PER”的局部样本标签置信度为0.612、标签“I-PER”的局部样本标签置信度为0.546、标签“B-LOC”的局部样本标签置信度为0.912、标签“I-LOC”的局部样本标签置信度为0.757。
基于以上结果可以确定样本标签置信度集合中的标签“N”的样本标签置信度为0.278、标签“B-PER”的样本标签置信度为0.712、标签“I-PER”的样本标签置信度为0.396、标签“B-LOC”的样本标签置信度为0.872、标签“I-LOC”的样本标签置信度为0.757。则目标位置置信度SL为1.584,目标类别置信度SC为1.629。
将目标位置置信度S1与目标类别置信度S2进行比较,确定目标位置置信度SL大于目标类别置信度SC。则目标样本标注结果可以是用于表征命名实体的第一目标样本标注结果为:标签“B-LOC”、数值为1,以及标签为“I-LOC”、数值为1。
需要说明的是,初始命名实体识别模型可以仅包括级联的初始特征提取模块和初始全局置信度评价模块,也可以仅包括级联的初始特征提取模块和初始局部置信度评价模块,还可以包括初始特征提取模块、并联的初始全局置信度评价模块和初始局部置信度评价模块。
根据本公开的实施例,初始全局置信度评价模块可以采用CRF,但是并不局限于此,还可以采用其他用于命名实体识别的置信度评价模块。
根据本公开的实施例,初始局部置信度评价模块可以采用Softmax,但是并不局限于此,还可以采用其他激活函数作为局部置信度评价模块。
根据本公开的实施例,可以利用初始全局置信度评价模块来学习样本文本中各个样本字符之间的关联关系,更好地体现目标样本标注结果序列中各个目标样本标注结果之间的强依赖关系。例如,在当前样本字符的目标样本标注结果为“O”标签后,出现“B”标签的概率大于出现“I”标签的概率,因为“I”标签不能作为命名实体的开头出现。此外,可以利用初始局部置信度评价模块来学习样本文本中各个样本字符的局部语义信息。由此,利用本公开实施例提供的具有并联的初始全局置信度评价模块和初始局部置信度评价模块的初始命名实体识别模型,可以既体现各个样本字符之间的关联关系,还可以学习各个样本字符各自的局部语义信息,使得最终的样本标签置信度集合序列的结果更为精准、有效。
根据本公开的实施例,利用样本标签置信度集合序列和目标样本标注结果序列调整初始命名实体识别模型的参数,得到命名实体识别模型可以包括如下操作。
例如,基于样本标签置信度集合序列,确定样本命名实体标签序列。以样本标签置信度集合序列中的一个样本标签置信度集合为例,来确定样本命名实体标签序列中与样本标签置信度集合相对应的样本命名实体标签。例如,样本标签置信度集合中的标签“N”的样本标签置信度为0.278、标签“B-PER”的样本标签置信度为0.712、标签“I-PER”的样本标签置信度为0.396、标签“B-LOC”的样本标签置信度为0.872、标签“I-LOC”的样本标签置信度为0.757。则,样本命名实体标签为“B-LOC”、数值为0.872。
可以将样本命名实体标签序列作为样本文本的预测结果,将目标样本标注结果序列作为样本文本的真实结果。可以利用样本命名实体标签序列和目标样本标注结果序列调整初始命名实体识别模型的参数,得到命名实体识别模型。例如,将样本命名实体标签序列和目标样本标注结果序列输入至交叉熵损失函数内,得到损失值,基于损失值调整初始命名实体识别模型的参数,直到损失值收敛。将损失值收敛的模型作为命名实体识别模型。
根据本公开的实施例,还可以利用优化训练的方式,例如自训练的方式,来利用包括噪声的训练样本训练模型。
例如,将优化样本文本输入至命名实体识别模型中,得到优化样本命名实体标签序列。利用优化样本文本和优化样本命名实体标签序列优化训练命名实体识别模型,得到优化后的命名实体识别模型。
根据本公开的实施例,可以将初始训练样本集合中的多个训练样本分为两个部分,一个部分的初始训练样本集合作为训练样本集合来训练初始命名实体识别模型,得到命名实体识别模型。另外一个部分的初始训练样本集合作为优化训练样本集合来训练命名实体识别模型,得到优化后的命名实体识别模型。利用多轮训练的方式训练模型,可以提高优化后的命名实体识别模型的训练精度。
根据本公开的实施例,优化训练样本集合中的优化训练样本可以包括优化样本和与优化样本相对应的待确认样本标注结果序列。可以直接利用优化样本和与优化样本相对应的待确认样本标注结果序列训练命名实体识别模型,得到优化后的命名实体识别模型。但是并不局限于此。还可以利用交叉验证的训练方式,利用命名实体识别模型对优化样本进行重新标注,得到优化样本命名实体标签序列。例如,将优化样本输入至命名实体识别模型中,得到优化样本命名实体标签序列。利用优化样本文本和优化样本命名实体标签序列优化来训练命名实体识别模型,得到优化后的命名实体识别模型,以提高模型的收敛速度。
图6示意性示出了根据本公开实施例的命名实体识别装置的框图。
如图6所示,命名实体识别装置600可以包括提取模块610、全局识别模块620、局部识别模块630、结果确定模块640。
提取模块610,用于提取待识别文本中的特征,得到特征向量序列。
全局识别模块620,用于对特征向量序列进行全局命名实体识别,得到全局识别结果。
局部识别模块630,用于对特征向量序列进行局部命名实体识别,得到局部识别结果。
结果确定模块640,用于基于全局识别结果和局部识别结果,确定待识别文本的命名实体标签序列,其中,命名实体标签序列包括至少一个命名实体标签,待识别文本包括至少一个字符,至少一个命名实体标签与至少一个字符一一对应,命名实体标签用于表征字符是否为命名实体。
根据本公开的实施例,全局识别模块可以包括全局识别单元。
全局识别单元,用于对特征向量序列进行全局置信度评价,确定全局标签置信度集合序列,作为全局识别结果,其中,全局标签置信度集合序列包括至少一个全局标签置信度集合,至少一个全局标签置信度集合与至少一个字符一一对应。
根据本公开的实施例,局部识别模块可以包括局部识别单元。
局部识别单元,用于对特征向量序列进行局部置信度评价,确定局部标签置信度集合序列,作为局部识别结果,其中,局部标签置信度集合序列包括至少一个局部标签置信度集合,至少一个局部标签置信度集合与至少一个字符一一对应。
根据本公开的实施例,结果确定模块可以包括第一确定单元、第二确定单元、第三确定单元、第四确定单元、第五确定单元。
第一确定单元,用于针对待识别文本中的每个字符,从全局标签置信度集合序列中确定与字符相匹配的全局标签置信度集合,其中,全局标签置信度集合包括多个全局标签置信度,多个全局标签置信度与多个命名实体类别一一对应。
第二确定单元,用于针对待识别文本中的每个字符,从局部标签置信度集合序列中确定与字符相匹配的局部标签置信度集合,其中,局部标签置信度集合包括多个局部标签置信度,多个局部标签置信度与多个命名实体类别一一对应。
第三确定单元,用于针对多个命名实体类别中的每个命名实体类别,基于与命名实体类别相对应的局部标签置信度和与命名实体类别相对应的全局标签置信度,确定标签置信度,得到标签置信度集合。
第四确定单元,用于针对待识别文本中的每个字符,从标签置信度集合中确定目标标签置信度。
第五确定单元,用于基于待识别文本中的每个字符的目标标签置信度,确定命名实体标签序列。
根据本公开的实施例,命名实体识别装置还可以包括第一集合确定模块、第二集合确定模块、目标集合确定模块。
第一集合确定模块,用于基于命名实体标签序列,从待识别文本中确定第一实体集合。
第二集合确定模块,用于基于预定命名实体匹配规则,从待识别文本中确定第二实体集合。
目标集合确定模块,用于基于第一实体集合和第二实体集合,确定目标实体集合。
图7示意性示出了根据本公开实施例的命名实体识别模型的训练装置的框图。
如图7所示,命名实体识别模型的训练装置700可以包括获取模块710、训练模块720。
获取模块710,用于获取训练样本。
训练模块720,用于利用训练样本训练初始命名实体识别模型,得到命名实体识别模型。
根据本公开的实施例,命名实体识别模型用于:将待识别文本进行向量化处理,得到特征向量序列;对特征向量序列进行全局命名实体识别,得到全局识别结果;对特征向量序列进行局部命名实体识别,得到局部识别结果;以及基于全局识别结果和局部识别结果,确定待识别文本的命名实体标签序列,其中,命名实体标签序列包括至少一个标签,待识别文本包括至少一个字符,至少一个命名实体标签与至少一个字符一一对应,命名实体标签用于表征字符是否为命名实体。
根据本公开的实施例,命名实体识别模型的训练装置可以包括获取模块和训练模块,但是并不局限于此,还可以仅包括训练模块。
根据本公开的实施例,训练样本包括样本文本和样本文本的待确认样本标注结果序列;样本文本包括至少一个样本字符,待确认样本标注结果序列包括至少一个待确认样本标注结果,至少一个样本字符与至少一个待确认样本标注结果一一对应。
根据本公开的实施例,训练模块可以包括输入单元、第五确定单元、调整单元。
输入单元,用于将样本文本输入至初始命名实体识别模型中,得到样本标签置信度集合序列。
第五确定单元,用于基于待确认样本标注结果序列和样本标签置信度集合序列,确定目标样本标注结果序列。
调整单元,用于基于目标样本标注结果序列和样本命名实体标签序列,调整初始命名实体识别模型的参数,得到命名实体识别模型。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上所述的方法。
根据本公开的实施例,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如上所述的方法。
根据本公开的实施例,一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如上所述的方法。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如命名实体识别方法或者命名实体识别模型的训练方法。例如,在一些实施例中,命名实体识别方法或者命名实体识别模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM803并由计算单元801执行时,可以执行上文描述的命名实体识别方法或者命名实体识别模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行命名实体识别方法或者命名实体识别模型的训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以是分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (17)
1.一种命名实体识别方法,包括:
提取待识别文本中的特征,得到特征向量序列;
对所述特征向量序列进行全局命名实体识别,得到全局识别结果;
对所述特征向量序列进行局部命名实体识别,得到局部识别结果;以及
基于所述全局识别结果和局部识别结果,确定所述待识别文本的命名实体标签序列,其中,所述命名实体标签序列包括至少一个命名实体标签,所述待识别文本包括至少一个字符,所述至少一个命名实体标签与所述至少一个字符一一对应,所述命名实体标签用于表征所述字符是否为命名实体。
2.根据权利要求1所述的方法,其中,所述对所述特征向量序列进行全局命名实体识别,得到全局识别结果包括:
对所述特征向量序列进行全局置信度评价,确定全局标签置信度集合序列,作为所述全局识别结果,其中,所述全局标签置信度集合序列包括至少一个全局标签置信度集合,所述至少一个全局标签置信度集合与所述至少一个字符一一对应。
3.根据权利要求2所述的方法,其中,所述对所述特征向量序列进行局部命名实体识别,得到局部识别结果包括:
对所述特征向量序列进行局部置信度评价,确定局部标签置信度集合序列,作为所述局部识别结果,其中,所述局部标签置信度集合序列包括至少一个局部标签置信度集合,所述至少一个局部标签置信度集合与所述至少一个字符一一对应。
4.根据权利要求3所述的方法,其中,所述基于所述全局识别结果和局部识别结果,确定所述待识别文本的命名实体标签序列包括:
针对所述待识别文本中的每个字符,从所述全局标签置信度集合序列中确定与所述字符相匹配的全局标签置信度集合,其中,所述全局标签置信度集合包括多个全局标签置信度,所述多个全局标签置信度与多个命名实体类别一一对应;
针对所述待识别文本中的每个字符,从所述局部标签置信度集合序列中确定与所述字符相匹配的局部标签置信度集合,其中,所述局部标签置信度集合包括多个局部标签置信度,所述多个局部标签置信度与所述多个命名实体类别一一对应;
针对所述多个命名实体类别中的每个命名实体类别,基于与所述命名实体类别相对应的局部标签置信度和与所述命名实体类别相对应的全局标签置信度,确定标签置信度,得到标签置信度集合;
针对所述待识别文本中的每个字符,从所述标签置信度集合中确定目标标签置信度;以及
基于所述待识别文本中的每个字符的目标标签置信度,确定所述命名实体标签序列。
5.根据权利要求1至4中任一项所述的方法,还包括:
基于所述命名实体标签序列,从所述待识别文本中确定第一实体集合;
基于预定命名实体匹配规则,从所述待识别文本中确定第二实体集合;以及
基于所述第一实体集合和所述第二实体集合,确定目标实体集合。
6.一种命名实体识别模型的训练方法,包括:
利用训练样本训练初始命名实体识别模型,得到命名实体识别模型;
其中,所述命名实体识别模型用于:
将待识别文本进行向量化处理,得到特征向量序列;
对所述特征向量序列进行全局命名实体识别,得到全局识别结果;
对所述特征向量序列进行局部命名实体识别,得到局部识别结果;以及
基于所述全局识别结果和局部识别结果,确定所述待识别文本的命名实体标签序列,其中,所述命名实体标签序列包括至少一个标签,所述待识别文本包括至少一个字符,所述至少一个命名实体标签与所述至少一个字符一一对应,所述命名实体标签用于表征所述字符是否为命名实体。
7.根据权利要求6所述的方法,其中,所述训练样本包括样本文本和所述样本文本的待确认样本标注结果序列;所述样本文本包括至少一个样本字符,所述待确认样本标注结果序列包括至少一个待确认样本标注结果,所述至少一个样本字符与所述至少一个待确认样本标注结果一一对应;
所述利用训练样本训练初始命名实体识别模型,得到命名实体识别模型包括:
将所述样本文本输入至所述初始命名实体识别模型中,得到样本标签置信度集合序列;
基于所述待确认样本标注结果序列和所述样本标签置信度集合序列,确定所述目标样本标注结果序列;以及
基于所述目标样本标注结果序列和所述样本命名实体标签序列,调整所述初始命名实体识别模型的参数,得到所述命名实体识别模型。
8.一种命名实体识别装置,包括:
提取模块,用于提取待识别文本中的特征,得到特征向量序列;
全局识别模块,用于对所述特征向量序列进行全局命名实体识别,得到全局识别结果;
局部识别模块,用于对所述特征向量序列进行局部命名实体识别,得到局部识别结果;以及
结果确定模块,用于基于所述全局识别结果和局部识别结果,确定所述待识别文本的命名实体标签序列,其中,所述命名实体标签序列包括至少一个命名实体标签,所述待识别文本包括至少一个字符,所述至少一个命名实体标签与所述至少一个字符一一对应,所述命名实体标签用于表征所述字符是否为命名实体。
9.根据权利要求8所述的装置,其中,所述全局识别模块包括:
全局识别单元,用于对所述特征向量序列进行全局置信度评价,确定全局标签置信度集合序列,作为所述全局识别结果,其中,所述全局标签置信度集合序列包括至少一个全局标签置信度集合,所述至少一个全局标签置信度集合与所述至少一个字符一一对应。
10.根据权利要求9所述的装置,其中,所述局部识别模块包括:
局部识别单元,用于对所述特征向量序列进行局部置信度评价,确定局部标签置信度集合序列,作为所述局部识别结果,其中,所述局部标签置信度集合序列包括至少一个局部标签置信度集合,所述至少一个局部标签置信度集合与所述至少一个字符一一对应。
11.根据权利要求10所述的装置,其中,所述结果确定模块包括:
第一确定单元,用于针对所述待识别文本中的每个字符,从所述全局标签置信度集合序列中确定与所述字符相匹配的全局标签置信度集合,其中,所述全局标签置信度集合包括多个全局标签置信度,所述多个全局标签置信度与多个命名实体类别一一对应;
第二确定单元,用于针对所述待识别文本中的每个字符,从所述局部标签置信度集合序列中确定与所述字符相匹配的局部标签置信度集合,其中,所述局部标签置信度集合包括多个局部标签置信度,所述多个局部标签置信度与所述多个命名实体类别一一对应;
第三确定单元,用于针对所述多个命名实体类别中的每个命名实体类别,基于与所述命名实体类别相对应的局部标签置信度和与所述命名实体类别相对应的全局标签置信度,确定标签置信度,得到标签置信度集合;
第四确定单元,用于针对所述待识别文本中的每个字符,从所述标签置信度集合中确定目标标签置信度;以及
第五确定单元,用于基于所述待识别文本中的每个字符的目标标签置信度,确定所述命名实体标签序列。
12.根据权利要求8至11中任一项所述的装置,还包括:
第一集合确定模块,用于基于所述命名实体标签序列,从所述待识别文本中确定第一实体集合;
第二集合确定模块,用于基于预定命名实体匹配规则,从所述待识别文本中确定第二实体集合;以及
目标集合确定模块,用于基于所述第一实体集合和所述第二实体集合,确定目标实体集合。
13.一种命名实体识别模型的训练装置,包括:
训练模块,用于利用训练样本训练初始命名实体识别模型,得到命名实体识别模型;
其中,所述命名实体识别模型用于:
将待识别文本进行向量化处理,得到特征向量序列;
对所述特征向量序列进行全局命名实体识别,得到全局识别结果;
对所述特征向量序列进行局部命名实体识别,得到局部识别结果;以及
基于所述全局识别结果和局部识别结果,确定所述待识别文本的命名实体标签序列,其中,所述命名实体标签序列包括至少一个标签,所述待识别文本包括至少一个字符,所述至少一个命名实体标签与所述至少一个字符一一对应,所述命名实体标签用于表征所述字符是否为命名实体。
14.根据权利要求13所述的装置,其中,所述训练样本包括样本文本和所述样本文本的待确认样本标注结果序列;所述样本文本包括至少一个样本字符,所述待确认样本标注结果序列包括至少一个待确认样本标注结果,所述至少一个样本字符与所述至少一个待确认样本标注结果一一对应;
所述训练模块包括:
输入单元,用于将所述样本文本输入至所述初始命名实体识别模型中,得到样本标签置信度集合序列;
第五确定单元,用于基于所述待确认样本标注结果序列和所述样本标签置信度集合序列,确定所述目标样本标注结果序列;以及
调整单元,用于基于所述目标样本标注结果序列和所述样本命名实体标签序列,调整所述初始命名实体识别模型的参数,得到所述命名实体识别模型。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至5中任一项所述的命名实体识别方法或权利要求6或7所述的命名实体识别模型的训练方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至5中任一项所述的命名实体识别方法或权利要求6或7所述的命名实体识别模型的训练方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1至5中任一项所述的命名实体识别方法或权利要求6或7所述的命名实体识别模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111608355.5A CN114330345B (zh) | 2021-12-24 | 2021-12-24 | 命名实体识别方法、训练方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111608355.5A CN114330345B (zh) | 2021-12-24 | 2021-12-24 | 命名实体识别方法、训练方法、装置、电子设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114330345A true CN114330345A (zh) | 2022-04-12 |
CN114330345B CN114330345B (zh) | 2023-01-17 |
Family
ID=81013548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111608355.5A Active CN114330345B (zh) | 2021-12-24 | 2021-12-24 | 命名实体识别方法、训练方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114330345B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569506A (zh) * | 2019-09-05 | 2019-12-13 | 清华大学 | 一种基于医疗词典的医疗命名实体识别方法 |
CN110750992A (zh) * | 2019-10-09 | 2020-02-04 | 吉林大学 | 命名实体识别方法、装置、电子设备及介质 |
CN111985240A (zh) * | 2020-08-19 | 2020-11-24 | 腾讯云计算(长沙)有限责任公司 | 命名实体识别模型的训练方法、命名实体识别方法及装置 |
CN112699682A (zh) * | 2020-12-11 | 2021-04-23 | 山东大学 | 一种基于可组合弱认证器的命名实体识别方法和装置 |
US20210200951A1 (en) * | 2019-12-27 | 2021-07-01 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for outputting information |
WO2021212682A1 (zh) * | 2020-04-21 | 2021-10-28 | 平安国际智慧城市科技股份有限公司 | 知识抽取方法、装置、电子设备及存储介质 |
CN113609859A (zh) * | 2021-08-04 | 2021-11-05 | 浙江工业大学 | 一种基于预训练模型的特种设备中文命名实体识别方法 |
CN113761923A (zh) * | 2020-10-26 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 命名实体识别方法、装置、电子设备及存储介质 |
CN113779994A (zh) * | 2021-08-25 | 2021-12-10 | 上海浦东发展银行股份有限公司 | 一种要素抽取方法、装置、计算机设备和存储介质 |
-
2021
- 2021-12-24 CN CN202111608355.5A patent/CN114330345B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569506A (zh) * | 2019-09-05 | 2019-12-13 | 清华大学 | 一种基于医疗词典的医疗命名实体识别方法 |
CN110750992A (zh) * | 2019-10-09 | 2020-02-04 | 吉林大学 | 命名实体识别方法、装置、电子设备及介质 |
US20210200951A1 (en) * | 2019-12-27 | 2021-07-01 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for outputting information |
WO2021212682A1 (zh) * | 2020-04-21 | 2021-10-28 | 平安国际智慧城市科技股份有限公司 | 知识抽取方法、装置、电子设备及存储介质 |
CN111985240A (zh) * | 2020-08-19 | 2020-11-24 | 腾讯云计算(长沙)有限责任公司 | 命名实体识别模型的训练方法、命名实体识别方法及装置 |
CN113761923A (zh) * | 2020-10-26 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 命名实体识别方法、装置、电子设备及存储介质 |
CN112699682A (zh) * | 2020-12-11 | 2021-04-23 | 山东大学 | 一种基于可组合弱认证器的命名实体识别方法和装置 |
CN113609859A (zh) * | 2021-08-04 | 2021-11-05 | 浙江工业大学 | 一种基于预训练模型的特种设备中文命名实体识别方法 |
CN113779994A (zh) * | 2021-08-25 | 2021-12-10 | 上海浦东发展银行股份有限公司 | 一种要素抽取方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114330345B (zh) | 2023-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110737758B (zh) | 用于生成模型的方法和装置 | |
EP3958145A1 (en) | Method and apparatus for semantic retrieval, device and storage medium | |
CN112528677B (zh) | 一种语义向量提取模型的训练方法、装置及电子设备 | |
CN112507706B (zh) | 知识预训练模型的训练方法、装置和电子设备 | |
EP3620994A1 (en) | Methods, apparatuses, devices, and computer-readable storage media for determining category of entity | |
CN112860919B (zh) | 基于生成模型的数据标注方法、装置、设备及存储介质 | |
CN114861889B (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
CN114840671A (zh) | 对话生成方法、模型的训练方法、装置、设备及介质 | |
EP4113357A1 (en) | Method and apparatus for recognizing entity, electronic device and storage medium | |
CN114416943B (zh) | 对话模型的训练方法、装置、电子设备及存储介质 | |
CN117114063A (zh) | 用于训练生成式大语言模型和用于处理图像任务的方法 | |
CN113836314B (zh) | 知识图谱构建方法、装置、设备以及存储介质 | |
CN113268560A (zh) | 用于文本匹配的方法和装置 | |
EP4170542A2 (en) | Method for sample augmentation | |
CN112990035A (zh) | 一种文本识别的方法、装置、设备以及存储介质 | |
CN114021548A (zh) | 敏感信息检测方法、训练方法、装置、设备以及存储介质 | |
CN114647727A (zh) | 应用于实体信息识别的模型训练方法、装置和设备 | |
CN115269768A (zh) | 要素文本处理方法、装置、电子设备和存储介质 | |
CN116383382A (zh) | 敏感信息的识别方法、装置、电子设备及存储介质 | |
CN115470790A (zh) | 一种识别文件中的命名实体的方法和装置 | |
CN114330345B (zh) | 命名实体识别方法、训练方法、装置、电子设备及介质 | |
CN114969371A (zh) | 一种联合知识图谱的热度排序方法及装置 | |
CN114817476A (zh) | 语言模型的训练方法、装置、电子设备和存储介质 | |
CN114841172A (zh) | 文本匹配双塔模型的知识蒸馏方法、装置及程序产品 | |
CN114416941A (zh) | 融合知识图谱的对话知识点确定模型的生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |