CN115130474A - 命名实体识别方法、装置、设备及存储介质 - Google Patents

命名实体识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115130474A
CN115130474A CN202210513349.XA CN202210513349A CN115130474A CN 115130474 A CN115130474 A CN 115130474A CN 202210513349 A CN202210513349 A CN 202210513349A CN 115130474 A CN115130474 A CN 115130474A
Authority
CN
China
Prior art keywords
character
entity
boundary
result
probability distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210513349.XA
Other languages
English (en)
Inventor
吴秉哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210513349.XA priority Critical patent/CN115130474A/zh
Publication of CN115130474A publication Critical patent/CN115130474A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种命名实体识别方法、装置、设备及存储介质,该方法包括:分别对获取到的目标文本中的各个字符的字符特征进行边界分类处理和实体分类处理,得到各个字符的边界分类结果和相应的实体分类结果;任一边界分类结果包括:相应字符的边界概率分布和相应边界概率分布的不确定性值,任一实体分类结果包括:相应字符的实体概率分布和相应实体概率分布的不确定性值;基于各个字符的边界概率分布和相应的实体概率分布,对目标文本进行命名实体识别,得到实体识别结果;并基于各个字符的边界概率分布的不确定性值以及相应的实体概率分布的不确定性值,输出实体识别结果的不确定性指示信息。本申请实施例可提升实体识别结果的准确性。

Description

命名实体识别方法、装置、设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种命名实体识别方法、装置、设备及存储介质。
背景技术
目前,随着互联网技术的持续发展,自然语言处理(如文本处理)技术已成为计算机技术领域与人工智能领域中的一个重要方向,且已被广泛应用;其中,命名实体识别(Named Entity Recognition,NER)是其他自然语言处理任务的基础任务,所谓的命名实体识别是指从文本中识别具有实体意义的词语(如提取句子中的人名、地名以及机构名等)。基于此,如何提升对目标文本进行命名实体识别的准确性成为了研究热点。
发明内容
本申请实施例提供了一种命名实体识别方法、装置、设备及存储介质,可提升对目标文本进行命名实体识别的准确性,即提升实体识别结果的准确性,并可输出实体识别结果的不确定性指示信息,以进一步指示实体识别结果的准确性(即可信性)。
一方面,本申请实施例提供了一种命名实体识别方法,所述方法包括:
获取目标文本中的各个字符的字符特征;
对所述各个字符的字符特征进行边界分类处理,得到所述各个字符的边界分类结果;任一边界分类结果包括:相应字符的边界概率分布和相应边界概率分布的不确定性值,边界概率分布指示相应字符属于每个边界类别的概率的分布情况;
对所述各个字符的字符特征进行实体分类处理,得到所述各个字符的实体分类结果;任一实体分类结果包括:相应字符的实体概率分布和相应实体概率分布的不确定性值,实体概率分布指示相应字符属于每个实体类别的概率的分布情况;
基于所述各个字符的边界概率分布和相应的实体概率分布,对所述目标文本进行命名实体识别,得到实体识别结果;并基于所述各个字符的边界概率分布的不确定性值以及相应的实体概率分布的不确定性值,输出所述实体识别结果的不确定性指示信息。
另一方面,本申请实施例提供了一种命名实体识别装置,所述装置包括:
获取单元,用于获取目标文本中的各个字符的字符特征;
处理单元,用于对所述各个字符的字符特征进行边界分类处理,得到所述各个字符的边界分类结果;任一边界分类结果包括:相应字符的边界概率分布和相应边界概率分布的不确定性值,边界概率分布指示相应字符属于每个边界类别的概率的分布情况;
所述处理单元,还用于对所述各个字符的字符特征进行实体分类处理,得到所述各个字符的实体分类结果;任一实体分类结果包括:相应字符的实体概率分布和相应实体概率分布的不确定性值,实体概率分布指示相应字符属于每个实体类别的概率的分布情况;
所述处理单元,还用于基于所述各个字符的边界概率分布和相应的实体概率分布,对所述目标文本进行命名实体识别,得到实体识别结果;并基于所述各个字符的边界概率分布的不确定性值以及相应的实体概率分布的不确定性值,输出所述实体识别结果的不确定性指示信息。
再一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,其中,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时实现如下步骤:
获取目标文本中的各个字符的字符特征;
对所述各个字符的字符特征进行边界分类处理,得到所述各个字符的边界分类结果;任一边界分类结果包括:相应字符的边界概率分布和相应边界概率分布的不确定性值,边界概率分布指示相应字符属于每个边界类别的概率的分布情况;
对所述各个字符的字符特征进行实体分类处理,得到所述各个字符的实体分类结果;任一实体分类结果包括:相应字符的实体概率分布和相应实体概率分布的不确定性值,实体概率分布指示相应字符属于每个实体类别的概率的分布情况;
基于所述各个字符的边界概率分布和相应的实体概率分布,对所述目标文本进行命名实体识别,得到实体识别结果;并基于所述各个字符的边界概率分布的不确定性值以及相应的实体概率分布的不确定性值,输出所述实体识别结果的不确定性指示信息。
再一方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序适于由处理器加载并执行如下步骤:
获取目标文本中的各个字符的字符特征;
对所述各个字符的字符特征进行边界分类处理,得到所述各个字符的边界分类结果;任一边界分类结果包括:相应字符的边界概率分布和相应边界概率分布的不确定性值,边界概率分布指示相应字符属于每个边界类别的概率的分布情况;
对所述各个字符的字符特征进行实体分类处理,得到所述各个字符的实体分类结果;任一实体分类结果包括:相应字符的实体概率分布和相应实体概率分布的不确定性值,实体概率分布指示相应字符属于每个实体类别的概率的分布情况;
基于所述各个字符的边界概率分布和相应的实体概率分布,对所述目标文本进行命名实体识别,得到实体识别结果;并基于所述各个字符的边界概率分布的不确定性值以及相应的实体概率分布的不确定性值,输出所述实体识别结果的不确定性指示信息。
再一方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述所提及的命名实体识别方法。
本申请实施例在获取到目标文本的各个字符的字符特征后,可对各个字符的字符特征进行边界分类处理,得到各个字符的边界分类结果,任一边界分类结果包括:相应字符的边界概率分布和相应边界概率分布的不确定性值;并对各个字符的字符特征进行实体分类处理,得到各个字符的实体分类结果,任一实体分类结果包括:相应字符的实体概率分布和相应实体概率分布的不确定性值;然后,可基于各个字符的边界概率分布和相应的实体概率分布,对目标文本进行命名实体识别,得到较为准确的实体识别结果,可提升对目标文本进行命名实体识别的准确性,即可提升实体识别结果的准确性;进一步的,可基于各个字符的边界概率分布的不确定性值以及相应的实体概率分布的不确定性值,输出实体识别结果的不确定性指示信息,从而进一步指示了实体识别结果的准确性(即可信性),并可对后续任务的决策提供更加丰富的指示。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的一种命名实体识别方案的流程示意图;
图1b是本申请实施例提供的一种终端和服务器交互的示意图;
图2是本申请实施例提供的一种命名实体识别方法的流程示意图;
图3是本申请实施例提供的另一种命名实体识别方法的流程示意图;
图4是本申请实施例提供的又一种命名实体识别方法的流程示意图;
图5是本申请实施例提供的一种命名实体识别装置的结构示意图;
图6是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
随着互联网技术的不断发展,人工智能(Artificial Intelligence,AI)技术也随之得到更好的发展。所谓的人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。而深度学习则是一种利用深层神经网络系统,进行机器学习的技术;机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
基于AI技术中的机器学习/深度学习技术,本申请实施例提出了一种命名实体识别方案,以提升对目标文件进行命名实体识别的准确性,即提升相应的实体识别结果的准确性,并可输出实体识别结果的不确定性指示信息,以进一步指示实体识别结果的准确性(即可信性)。需要说明的是,本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
参见图1a所示,本申请实施例所提出的命名实体识别方案的大致原理如下:首先,可获取目标文本中的各个字符的字符特征,并分别对各个字符的字符特征进行边界分类处理和实体分类处理,得到各个字符的边界分类结果和相应的实体分类结果;其中,任一边界分类结果包括:相应字符的边界概率分布和相应边界概率分布的不确定性值,任一实体分类结果包括:相应字符的实体概率分布和相应实体概率分布的不确定性值。然后,可基于各个字符的边界概率分布和相应的实体概率分布,对目标文本进行命名实体识别,得到实体识别结果;并可基于各个字符的边界概率分布的不确定性值以及相应的实体概率分布的不确定性值,输出实体识别结果的不确定性指示信息。
经实践表明,本申请实施例提出的命名实体识别方案可至少具有如下几点有益效果:①可提升对目标文本进行命名实体识别的准确性,即可提升实体识别结果的准确性;②可输出实体识别结果的不确定性指示信息,以进一步指示实体识别结果的准确性(即可靠性);③可为后续任务的决策提供更加丰富的指示,从而使后续任务得到更加可靠的决策结果。
在具体实现中,上述所提及的命名实体识别方案可由一个计算机设备执行,该计算机设备可以是终端或者服务器;其中,此处所提及的终端可以包括但不限于:智能手机、平板电脑、笔记本电脑、台式计算机、智能手表、智能语音交互设备、智能家电、车载终端、飞行器等;终端内可运行各式各样的客户端(application,APP),如视频播放客户端、社交客户端、浏览器客户端、信息流客户端、教育客户端,等等。此处所提及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算(cloud computing)、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,等等;所谓的云计算是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。并且,本申请实施例所提及的计算机设备可以位于区块链网络外,也可以位于区块链网络内,对此不作限定;所谓的区块链网络是一种由点对点网络(P2P网络)和区块链所构成的网络,而区块链则是指一种分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式,其本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块(或称为区块)。
或者,在其他实施例中,上述所提及的命名实体识别方案也可由服务器和终端共同执行;终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。例如:可由终端负责获取目标文本中的各个字符的字符特征,并将各个字符的字符特征发送至服务器;使得服务器可分别对各个字符的字符特征进行边界分类处理和实体分类处理,得到各个字符的边界分类结果和相应的实体分类结果,并将各个字符的边界分类结果和相应的实体分类结果发送至终端;再由终端根据各个字符的边界分类结果和相应的实体分类结果,对目标文本进行命名实体识别,得到实体识别结果,并输出实体识别结果的不确定性指示信息,如图1b所示。又如,可由终端负责获取目标文本中的各个字符的字符特征,并分别对各个字符的字符特征进行边界分类处理和实体分类处理,得到各个字符的边界分类结果和相应的实体分类结果,进而将各个字符的边界分类结果和相应的实体分类结果发送至服务器;使得服务器基于各个字符的边界分类结果和相应的实体分类结果,对目标文本进行命名实体识别,得到实体识别结果,并输出实体识别结果的不确定性指示信息,等等。应当理解的是,此处只是示例性地阐述了终端和服务器共同执行上述命名实体识别方案的两种情况,并非穷举。
基于上述命名实体识别方案的相关描述,本申请实施例提出一种命名实体识别方法,该命名实体识别方法可以由上述所提及的计算机设备(终端或服务器)执行;或者,该命名实体识别方法可由终端和服务器共同执行。为便于阐述,后续均以计算机设备执行该命名实体识别方法为例进行说明;请参见图2,该命名实体识别方法可包括以下步骤S201-S204:
S201,获取目标文本中的各个字符的字符特征。
需要说明的是,本申请实施例提出了一个用于命名实体识别的深度模型架构(即命名实体识别模型),该架构可以作为业务中一系列任务的基本模块,例如问答系统(Question Answering System,QA)和机器翻译等;所谓的问答系统是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题,而所谓的机器翻译是指将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。并且,该架构还可进行不确定性估计(Uncertainty Quantification),并应用于主动学习场景,即可利用不确定性估计模块挖掘实际业务中价值较大的样本(即不确定性文本或不确定性大的样本),过滤价值不大的样本(即确定性文本),从而减少人工标注的代价。
具体的,计算机设备在获取目标文本中的各个字符的字符特征时,可获取目标文本,并对目标文本中的各个字符进行特征提取,得到各个字符的字符特征;或者,计算机设备的存储空间中存储有一个或多个文本中的每个文本包括的每个字符的字符特征,则计算机设备可从存储的一个或多个文本中选取出目标文本,以得到目标文本中的各个字符的字符特征,等等;本申请对此不作限定。
其中,目标文本的获取方式包括但不限于如下几种:
第一种获取方式:计算机设备可以先获取目标文本的文本下载链接,再根据该文本下载链接对目标文本进行下载,以得到目标文本。或者,若计算机设备自身的存储空间中存储有一个或多个文本,那么计算机设备可在存储的一个或多个文本中选取至少一个文本,并将选取的文本均作为目标文本。
第二种获取方式:计算机设备可配置有文本输入组件,那么计算机设备可通过该文本输入组件获取文本,并将获取的文本作为目标文本。
相应的,在获取到目标文本后,计算机设备可采用上述架构中的词特征提取模块(即深度特征提取模块)对目标文本中的各个字符进行特征提取,得到各个字符的字符特征;其中,该深度特征提取模块为一个基于变形器(Transformer)的深度模型,且输入为目标文本中的各个字符的嵌入表达(embeeding)xi,经过一系列自注意力模块和正则化模块后,得到各个字符的字符特征(即不同字符的深度表达)hi,i∈[1,D],D为目标文本包括的字符的数量;也就是说,计算机设备可调用命名实体识别模型中的深度特征提取模块,对各个字符进行特征提取,得到各个字符的字符特征,如图3所示。
其中,上述变形器的主要模块包含堆叠的多头注意力模块(Multi-headattention)、正则化模块以及全连接模块(Feed-forward),且正则化模块也可称为归一化模块(Add&Norm);总体来说,深度特征提取模块以各个字符的原始特征嵌入表达作为输入,通过变形器建模不同特征之间的关系,最终得到深层次的特征表达,即各个字符的字符特征。
S202,对各个字符的字符特征进行边界分类处理,得到各个字符的边界分类结果;任一边界分类结果包括:相应字符的边界概率分布和相应边界概率分布的不确定性值,边界概率分布指示相应字符属于每个边界类别的概率的分布情况。
其中,任一字符的边界类别可用于指示该任一字符在相应词中的位置;需要说明的是,计算机设备可采用BIO标注来表示边界类别,也就是说,可采用BIO标注来对各个字符的边界类别进行标注;计算机设备也可采用BIOES标注来表示边界类别,也就是说,可采用BIOES标注来对各个字符的边界类别进行标注,等等;本申请对此不作限定。
具体的,当采用BIO标注来表示边界类别时,边界类别可被分为三个类别,且可分别采用标注B、标注I以及标注O来对各个字符的边界类别进行标注,标注B用于表示相应字符的边界类别为开始,标注I用于表示相应字符的边界类别为中间,标注O用于表示相应字符的边界类别为其他,即不是实体;也就是说,当一个字符的边界类别为开始时,相应字符位于一个实体的起始位置,当一个字符的边界类别为中间时,相应字符位于一个实体的中间位置,当一个字符的边界类别为其他时,相应字符位于任一实体以外的位置,即相应字符不属于任一实体。
相应的,当采用BIOES标注来表示边界类别时,边界类别可被分为五个类别,且可分别采用标注B、标注I、标注E、标注S以及标注O来对各个字符的边界类别进行标注,标注B用于表示相应字符的边界类别为开始,标注I用于表示相应字符的边界类别为中间,标注E用于表示相应字符的边界类别为结尾,标注S用于表示相应字符的边界类别为单个字符,标注O用于表示相应字符的边界类别为其他,等等。
需要说明的是,本申请提出的命名实体识别模型还可包括概率决策模块,且概率决策模块包含两个子模块,分别是边界检测模块(即边界检测器)与实体分类模块(实体分类器),其中每个模块均可由一个高斯混合模型(Gaussian Mixture Model,GMM)构成,相应的,边界检测模块也可称为第一高斯混合网络,且实体分类模块也可称为第二高斯混合网络。可以理解的是,对于边界检测不确定性大的样本,可以进一步提升命名实体识别模型中的边界检测器的效果,即可加强边界检测器;其中,边界检测不确定性大的样本可以指的是各个字符的边界概率分布的不确定性值(即边界检测的不确定性值)之间的求和运算结果大于预设求和边界阈值的文本,也可以指的是各个字符的边界概率分布的不确定性值之间的均值运算结果大于预设均值边界阈值的文本,等等;本申请对此不作限定。相应的,对于实体分类不确定性大的样本,可以进一步提升命名实体识别模型中的实体分类器的效果,即可加强实体分类器;其中,实体分类不确定性大的样本可以指的是各个字符的实体概率分布的不确定性值(即实体分类的不确定性值或实体类别预测的不确定性值)之间的求和运算结果大于预设求和实体阈值的文本,也可以指的是各个字符的实体概率分布的不确定性值之间的均值运算结果大于预设均值实体阈值的文本,等等;本申请对此不作限定。
在此种情况下,计算机设备可调用第一高斯混合网络,对各个字符的字符特征进行边界分类处理,得到各个字符的边界分类结果;也就是说,计算机设备可通过第一高斯混合网络输出各个字符的边界分类结果。
S203,对各个字符的字符特征进行实体分类处理,得到各个字符的实体分类结果;任一实体分类结果包括:相应字符的实体概率分布和相应实体概率分布的不确定性值,实体概率分布指示相应字符属于每个实体类别的概率的分布情况。
其中,每个实体类别包括但不限于:人名、地名、机构名、时间以及日期,等等;本申请对此不作限定。
具体的,计算机设备可调用第二高斯混合网络,对各个字符的字符特征进行实体分类处理,得到各个字符的实体分类结果;也就是说,计算机设备可通过第二高斯混合网络输出各个字符的实体分类结果。
可以理解的是,命名实体识别模型融合了变形器和高斯混合模型,其中变形器负责字符特征(即词表达特征)的提取,高斯混合模型可输出最后的决策结果以及对应的不确定性值。并且,该命名实体识别模型将边界分类与实体分类分离,即使用两个独立模块分别得到边界分类结果和实体分类结果,这样的设计使得命名实体识别模型能够同时得到各个字符的边界概率分布的不确定性值和相应的实体概率分布的不确定性值。
S204,基于各个字符的边界概率分布和相应的实体概率分布,对目标文本进行命名实体识别,得到实体识别结果;并基于各个字符的边界概率分布的不确定性值以及相应的实体概率分布的不确定性值,输出实体识别结果的不确定性指示信息。
需要说明的是,实体识别结果的不确定性指示信息的输出方式包括但不限于以下几种:
第一种输出方式:计算机设备可将各个字符的边界概率分布的不确定性值以及相应的实体概率分布的不确定性值,作为实体识别结果的不确定性指示信息,在此种情况下,计算机设备可输出各个字符的边界概率分布的不确定性值以及相应的实体概率分布的不确定性值,以指示实体识别结果的准确性,即可信性。
第二种输出方式:计算机设备可对各个字符的边界概率分布的不确定性值进行求和运算,得到实体识别结果的边界不确定性值;并对各个字符的实体概率分布的不确定性值进行求和运算,得到实体识别结果的实体不确定性值;那么相应的,计算机设备可将边界不确定性值和实体不确定性值作为实体识别结果的不确定性指示信息,在此种情况下,计算机设备可输出实体识别结果的边界不确定性值和实体不确定性值,以指示实体识别结果的准确性。
第三种输出方式:计算机设备可对各个字符的边界概率分布的不确定性值和相应的实体概率分布的不确定性值进行求和运算,得到目标不确定性值,并将目标不确定性值作为实体识别结果的不确定性指示信息;在此种情况下,计算机设备可输出目标不确定性值,以指示实体识别结果的准确性。
第四种输出方式,计算机设备可基于各个字符的边界概率分布的不确定性值和相应的实体概率分布的不确定性值,确定实体识别结果的结果类型,该结果类型用于指示实体识别结果为不确定性结果或确定性结果;并可将该结果类型作为实体识别结果的不确定性指示信息,等等。在此种情况下,计算机设备可基于各个字符的边界概率分布的不确定性值和相应的实体概率分布的不确定性值,计算目标不确定性值,若目标不确定性值大于预设目标阈值,则可确定结果类型用于指示实体识别结果为不确定性结果,若目标不确定性值小于或等于预设目标阈值,则可确定结果类型用于指示实体识别结果为确定性结果;或者,计算机设备也可以先计算实体识别结果的边界不确定性值和实体不确定性值,若边界不确定性值大于预设边界阈值,且实体不确定性值大于预设实体阈值,则计算机设备可确定结果类型用于指示实体识别结果为不确定性结果,等等;本申请对确定实体识别结果的结果类型的具体实施方式不作限定。
本申请实施例在获取到目标文本的各个字符的字符特征后,可对各个字符的字符特征进行边界分类处理,得到各个字符的边界分类结果,任一边界分类结果包括:相应字符的边界概率分布和相应边界概率分布的不确定性值;并对各个字符的字符特征进行实体分类处理,得到各个字符的实体分类结果,任一实体分类结果包括:相应字符的实体概率分布和相应实体概率分布的不确定性值;然后,可基于各个字符的边界概率分布和相应的实体概率分布,对目标文本进行命名实体识别,得到较为准确的实体识别结果,可提升对目标文本进行命名实体识别的准确性,即可提升实体识别结果的准确性;进一步的,可基于各个字符的边界概率分布的不确定性值以及相应的实体概率分布的不确定性值,输出实体识别结果的不确定性指示信息,从而进一步指示了实体识别结果的准确性(即可信性),并可对后续任务的决策提供更加丰富的指示。
请参见图4,是本申请实施例提供的另一种命名实体识别方法的流程示意图。该命名实体识别方法可以由上述所提及的计算机设备(终端或服务器)执行;或者,该命名实体识别方法可由终端和服务器共同执行。为便于阐述,后续均以计算机设备执行该命名实体识别方法为例进行说明;请参见图4,该命名实体识别方法可包括以下步骤S401-S408:
S401,获取目标文本中的各个字符的字符特征。
S402,对任一字符的字符特征进行M次边界检测处理,得到M个边界参数组,M为正整数;一个边界参数组中包括:参数组权重、相应字符的边界概率分布所涉及的一个高斯分布的均值,以及用于描述相应高斯分布的波动情况的方差。
具体的,计算机设备可获取第一高斯混合网络,该第一高斯混合网络包括:用于进行边界检测处理的M个第一高斯子网络;那么相应的,计算机设备可分别调用第一高斯混合网络中的各个第一高斯子网络,并行地对任一字符的字符特征进行边界检测处理,得到M个边界参数组。
在此种情况下,计算机设备可将各个字符的字符特征{hi∈RH+1},i=1,…,D作为边界检测模块的输入,H为正整数;也就是说,计算机设备可分别将各个字符的字符特征作为各个第一高斯子网络的输入,且一个第一高斯子网络可以指的是一个全连接网络,从而使得各个字符的字符特征经过一个全连接网络(该网络参数以及结构被所有特征共享),以输出各个边界参数组(即第一高斯混合网络的各个成分的参数)。
可以理解的是,针对目标文本中的第i个字符,计算机设备可调用第m个第一高斯子网络对第i个字符的字符特征hi进行边界检测处理,得到第i个字符的第m个边界参数组,即第一高斯混合模型在第i个字符下的第m个成分的参数组
Figure BDA0003640368490000121
其中,m∈[1,M],且pos是指position,即实体位置预测,用于指示边界检测处理所得到的参数,且这三个参数分别对应第m个边界参数组中的参数组权重、相应字符的边界概率分布所涉及的一个高斯分布的均值,以及用于描述相应高斯分布的波动情况的方差,即这三个参数分别对应第一高斯混合网络在第i个字符下的第m个分量的参数组权重(即组合权重)、高斯分布均值以及方差。
S403,采用M个边界参数组中的各个边界参数组中的均值和方差,分别构建各个边界参数组对应的高斯分布。
其中,若上述任一字符为目标文本中的第i个字符,那么第i个字符的第m个边界参数组对应的高斯分布可以为:
Figure BDA0003640368490000122
S404,按照各个边界参数组中的参数组权重,对相应的高斯分布进行加权求和,得到任一字符的边界概率分布;以及,按照各个边界参数组中的参数组权重,对各个边界参数组中的方差进行加权求和,得到相应边界概率分布的不确定性值。
具体的,若上述任一字符为目标文本中的第i个字符,那么针对目标文本中的第i个字符,计算机设备可以采用公式1.1,对第i个字符的边界概率分布计算如下:
Figure BDA0003640368490000131
相应的,针对目标文本中的第i个字符,计算机设备可以采用公式1.2,对第i个字符的边界概率分布的不确定性值计算如下:
Figure BDA0003640368490000132
S405,对任一字符的字符特征进行N次实体检测处理,得到N个实体参数组,N为正整数;一个实体参数组中包括:参数组权重、相应字符的实体概率分布所涉及的一个高斯分布的均值,以及用于描述相应高斯分布的波动情况的方差。
具体的,计算机设备可获取第二高斯混合网络,该第二高斯混合网络包括:用于进行实体检测处理的N个第二高斯子网络;那么相应的,计算机设备可分别调用第二高斯混合网络中的各个第二高斯子网络,并行地对任一字符的字符特征进行实体检测处理,得到N个实体参数组。
在此种情况下,计算机设备可将各个字符的字符特征{hi∈RH+1},i=1,…,D作为实体分类模块的输入;也就是说,计算机设备可分别将各个字符的字符特征作为各个第二高斯子网络的输入,且一个第二高斯子网络可以指的是一个全连接网络,从而使得各个字符的字符特征经过一个全连接网络(该网络参数以及结构被所有特征共享),以输出各个实体参数组(即第二高斯混合网络的各个成分的参数)。
可以理解的是,针对目标文本中的第i个字符,计算机设备可调用第n个第二高斯子网络对第i个字符的字符特征hi进行实体检测处理,得到第i个字符的第n个实体参数组,即第二高斯混合模型在第i个字符下的第n个成分的参数组
Figure BDA0003640368490000133
其中,n∈[1,N],且cls用于指示实体检测处理所得到的参数,且这三个参数分别对应第n个实体参数组中的参数组权重、相应字符的实体概率分布所涉及的一个高斯分布的均值,以及用于描述相应高斯分布的波动情况的方差,即这三个参数分别对应第二高斯混合网络在第i个字符下的第n个分量的参数组权重(即组合权重)、高斯分布均值以及方差。
S406,采用N个实体参数组中的各个实体参数组中的均值和方差,分别构建各个实体参数组对应的高斯分布。
其中,若上述任一字符为目标文本中的第i个字符,那么第i个字符的第m个边界参数组对应的高斯分布可以为:
Figure BDA0003640368490000141
S407,按照各个实体参数组中的参数组权重,对相应的高斯分布进行加权求和,得到任一字符的实体概率分布;以及,按照各个实体参数组中的参数组权重,对各个实体参数组中的方差进行加权求和,得到相应实体概率分布的不确定性值。
具体的,若上述任一字符为目标文本中的第i个字符,那么针对目标文本中的第i个字符,计算机设备可以采用公式1.3,对第i个字符的实体概率分布计算如下:
Figure BDA0003640368490000142
相应的,针对目标文本中的第i个字符,计算机设备可以采用公式1.4,对第i个字符的实体概率分布的不确定性值计算如下:
Figure BDA0003640368490000143
S408,基于各个字符的边界概率分布和相应的实体概率分布,对目标文本进行命名实体识别,得到实体识别结果;并基于各个字符的边界概率分布的不确定性值以及相应的实体概率分布的不确定性值,输出实体识别结果的不确定性指示信息。
在具体的实现中,计算机设备在基于各个字符的边界概率分布和相应的实体概率分布,对目标文本进行命名实体识别,得到实体识别结果时,可先对各个字符的边界概率分布进行采样处理,得到各个字符的第一采样结果,且任一字符的第一采样结果包括相应字符属于每个边界类别的概率;并对各个字符的实体概率分布进行采样处理,得到各个字符的第二采样结果,且任一字符的第二采样结果包括相应字符属于每个实体类别的概率;然后,可根据各个字符的第一采样结果和相应的第二采样结果,对目标文本进行命名实体识别,得到实体识别结果。
在一种实施方式中,在根据各个字符的第一采样结果和相应的第二采样结果,对目标文本进行命名实体识别,得到实体识别结果时,计算机设备可根据各个字符的第一采样结果,分别确定各个字符所属的目标边界类别;任一字符所属的目标边界类别是指:相应第一采样结果中最大的概率所对应的边界类别;并根据各个字符的第二采样结果,分别确定各个字符所属的目标实体类别;任一字符所属的目标实体类别是指:相应第二采样结果中最大的概率所对应的实体类别;从而基于各个字符所属的目标边界类别和相应的目标实体类别,对目标文本进行命名实体识别,得到实体识别结果。
举例来说,以确定任一字符所属的目标边界类别为例进行说明,假设计算机设备可从边界类别A、边界类别B以及边界类别C中确定任一字符所述的目标边界类别,也就是说,边界类别可被分为三个类别,那么任一字符的第一采样结果可用于指示:该任一字符属于边界类别A的概率、该任一字符属于边界类别B的概率,以及该任一字符属于边界类别C的概率;又假设该任一字符的第一采样结果中最大的概率为该任一字符属于边界类别A的概率,那么计算机设备可确定该任一字符所属的目标边界类别为边界类别A。
可以理解的是,在基于各个字符所属的目标边界类别和相应的目标实体类别,对目标文本进行命名实体识别,得到实体识别结果时,计算机设备可根据各个字符所属的目标边界类别,对目标文本进行词划分,以从目标文本中提取出一个或多个实体;相应的,计算机设备可根据各个字符的目标实体类别,确定提取出的各个实体的实体类别,从而得到实体识别结果。
另一种实施方式中,在根据各个字符的第一采样结果和相应的第二采样结果,对目标文本进行命名实体识别,得到实体识别结果时,计算机设备可获取实体识别网络,并将各个字符的第一采样结果和相应的第二采样结果输入实体识别网络,以实现对目标文本的命名实体识别,得到实体识别结果。
另一种实施方式中,在根据各个字符的第一采样结果和相应的第二采样结果,对目标文本进行命名实体识别,得到实体识别结果时,计算机设备可先根据各个字符的第一采样结果,分别确定各个字符所属的目标边界类别;并根据各个字符所属的目标边界类别,对目标文本进行词划分,得到一个或多个实体。然后,计算机设备可根据一个或多个实体中的每个字符的第二采样结果,分别确定每个字符所属的目标实体类别;并基于每个字符所属的目标实体类别,确定各个实体的实体类别,以得到实体识别结果。
需要说明的是,实体识别结果可以是通过调用目标模型中的实体识别网络对目标文本进行命名实体识别得到的,该目标模型还包括:用于确定任一字符的边界分类结果的第一高斯混合网络,以及用于确定任一字符的实体分类结果的第二高斯混合网络;其中,第一高斯混合网络是根据任一字符的M个边界参数组确定相应字符的边界分类结果的,第二高斯混合网络是根据任一字符的N个实体参数组确定相应字符的实体分类结果的。
在此种情况下,计算机设备还可获取各个字符的字符标注信息,任一字符标注信息包括:通过标注相应字符属于每个边界类别的概率所得到的边界标注信息,以及通过标注相应字符属于每个实体类别的概率所得到的实体标注信息;那么相应的,计算机设备可根据各个字符的M个边界参数组和相应的边界标注信息,计算第一模型损失值;以及,根据各个字符的N个实体参数组和相应的实体标注信息,计算第二模型损失值。进一步的,可对第一模型损失值和第二模型损失值进行加权求和,得到目标模型的目标模型损失值;并按照减小目标模型损失值的方向,优化目标模型。
具体的,在根据各个字符的M个边界参数组和相应的边界标注信息,计算第一模型损失值时,计算机设备可分别对各个字符的各个边界参数组中的均值和相应字符的边界标注信息进行差值运算,得到多个第一差值;并根据每个第一差值和对应边界参数组中的方差,计算第一模型损失值。其中,任一字符对应的第一差值的数量与该任一字符的边界参数组的数量相同,也就是说,任一字符对应的第一差值的数量等于M,即上述多个第一差值中包括的第一差值的数量等于各个字符的边界参数组的数量;并且,第一差值与边界参数组一一对应,即计算机设备可根据一个边界参数组计算出一个第一差值。
需要说明的是,针对目标文本中的第i个字符,计算机设备可采用公式1.5,计算第i个字符在边界分类处理下所对应的模型损失值:
Figure BDA0003640368490000161
其中,pi是指第i个字符的边界标注信息;可以理解的是,计算机设备可对各个字符在边界分类处理下所对应的模型损失值进行求和运算,得到第一模型损失值。
相应的,在根据各个字符的N个实体参数组和相应的实体标注信息,计算第二模型损失值时,计算机设备可分别对各个字符的各个实体参数组中的均值和相应字符的实体标注信息进行差值运算,得到多个第二差值;并根据每个第二差值和对应实体参数组中的方差,计算第二模型损失值。其中,任一字符对应的第二差值的数量与该任一字符的实体参数组的数量相同,也就是说,任一字符对应的第二差值的数量等于M,即上述多个第二差值中包括的第二差值的数量等于各个字符的实体参数组的数量;并且,第二差值与实体参数组一一对应,即计算机设备可根据一个实体参数组计算出一个第二差值。
需要说明的是,针对目标文本中的第i个字符,计算机设备可采用公式1.6,计算第i个字符在实体分类处理下所对应的模型损失值:
Figure BDA0003640368490000171
其中,yi是指第i个字符的实体标注信息;可以理解的是,计算机设备可对各个字符在实体分类处理下所对应的模型损失值进行求和运算,得到第二模型损失值。
进一步的,计算机设备可根据实体识别结果的不确定性指示信息,确定目标文本的文本类型,该文本类型用于指示目标文本为不确定性文本或确定性文本;那么相应的,若文本类型指示目标文本为不确定性文本,则将目标文本作为目标模型的训练样本,并触发执行获取各个字符的字符标注信息的步骤。换句话说,若文本类型指示目标文本为不确定性文本,则计算机设备可采用目标文本,对目标模型进行训练优化;在此种情况下,计算机设备可将不确定性文本确定为价值较大的样本,从而仅采用价值较大的样本对目标模型进行训练优化,从而减少人工标注的代价。
需要说明的是,文本类型可以是数值,也可以是字符,本申请对文本类型的具体表示形式不作限定;例如,文本类型可以为数值A或数值B,当文本类型为数值A时,文本类型可用于指示目标文本为不确定性文本,且当文本类型为数值B时,文本类型可用于指示目标文本为确定性文本;又如,文本类型可以是标识“不确定性文本”或标识“确定性文本”,当文本类型为标识“不确定性文本”时,文本类型可用于指示目标文本为不确定性文本,且当文本类型为标识“确定性文本”时,文本类型可用于指示目标文本为确定性文本,等等。
其中,目标文本的文本类型的确定方式包括但不限于如下几种:
第一种确定方式:上述实体识别结果的不确定性指示信息是指:各个字符的边界概率分布的不确定性值以及相应的实体概率分布的不确定性值,那么计算机设备可在目标文本中统计边界概率分布的不确定性值大于字符边界阈值的第一字符数量,并在目标文本中统计实体概率分布的不确定性值大于字符实体阈值的第二字符数量;若第一字符数量与目标文本包括的字符的数量之间的比值大于第一比值,且第二字符数量与目标文本包括的字符的数量之间的比值大于第二比值,则可确定文本类型用于指示目标文本为不确定性文本;若第一字符数量与目标文本包括的字符的数量之间的比值小于或等于第一比值,或第二字符数量与目标文本包括的字符的数量之间的比值小于或等于第二比值,则可确定文本类型用于指示目标文本为确定性文本。或者,计算机设备可对第一字符数量和第二字符数量进行求和运算,得到目标字符数量,若目标字符数量与目标文本包括的字符的数量的两倍结果之间的比值大于第三比值,则可确定文本类型用于指示目标文本为不确定性文本,等等;本申请对此不作限定。
第二种确定方式:上述实体识别结果的不确定性指示信息是指:实体识别结果的边界不确定性值和实体不确定性值;或者,上述实体识别结果的不确定性指示信息是指:各个字符的边界概率分布的不确定性值以及相应的实体概率分布的不确定性值,且计算机设备可基于各个字符的边界概率分布的不确定性值和相应的实体概率分布的不确定性值,计算出实体识别结果的边界不确定性值和实体不确定性值;那么相应的,计算机设备可基于实体识别结果的边界不确定性值和实体不确定性值,确定目标文本的文本类型。具体的,若边界不确定性值大于结果边界阈值,且实体不确定性值大于结果实体阈值,则可确定文本类型用于指示目标文本为不确定性文本;若边界不确定性值小于或等于结果边界阈值,或实体不确定性值小于或等于结果实体阈值,则可确定文本类型用于指示目标文本为确定性文本。
第三种确定方式:上述实体识别结果的不确定性指示信息是指:目标不确定性值;或者,上述实体识别结果的不确定性指示信息是指:各个字符的边界概率分布的不确定性值以及相应的实体概率分布的不确定性值,且计算机设备可基于各个字符的边界概率分布的不确定性值和相应的实体概率分布的不确定性值,计算出目标不确定性值;那么相应的,计算机设备可基于目标不确定性值,确定目标文本的文本类型。具体的,若目标不确定性值大于结果目标阈值,则可确定文本类型用于指示目标文本为不确定性文本;若目标不确定性值小于或等于结果目标阈值,则可确定文本类型用于指示目标文本为确定性文本。
第四种确定方式:上述实体识别结果的不确定性指示信息是指:实体识别结果的结果类型;或者,上述实体识别结果的不确定性指示信息是指:各个字符的边界概率分布的不确定性值以及相应的实体概率分布的不确定性值,且计算机设备可基于各个字符的边界概率分布的不确定性值和相应的实体概率分布的不确定性值,确定出实体识别结果的结果类型;那么相应的,计算机设备可基于实体识别结果的结果类型,确定目标文本的文本类型。具体的,若结果类型指示实体识别结果为不确定性结果,则计算机设备可确定文本类型用于指示目标文本为不确定性文本;若结果类型指示实体识别结果为准确性结果,则计算机设备可确定文本类型用于指示目标文本为确定性文本,等等。
需要说明的是,上述字符边界阈值、字符实体阈值、第一比值以及第二比值等,均可以是根据经验设置的,也可以是按照实际需求设置的,本申请对此不作限定。
应当理解的是,计算机设备也可采用第一模型损失值,对目标模型中的第一高斯混合网络(即边界检测模块)进行优化,也就是说,计算机设备可按照减小第一模型损失值的方向,优化目标模型中的第一高斯混合网络;相应的,计算机设备可采用第二模型损失值,对目标模型中的第二高斯混合网络(即实体分类模块)进行优化,也就是说,计算机设备可按照减小第一模型损失值的方向,优化目标模型中的第二高斯混合模型,等等;本申请对此不作限定。
本申请实施例可在获取到目标文本中的各个字符的字符特征后,对任一字符的字符特征进行M次边界检测处理,得到M个边界参数组;并采用任一字符的M个边界参数组,确定相应字符的边界概率分布和边界概率分布的不确定性值;相应的,可对任一字符的字符特征进行N次实体检测处理,得到N个实体参数组;并采用任一字符的N个实体参数组,确定相应字符的实体概率分布和实体概率分布的不确定性值;然后,可基于各个字符的边界概率分布和相应的实体概率分布,对目标文本进行命名实体识别,得到准确性较高的实体识别结果,以提升对目标文本进行命名实体识别的准确性;并可基于各个字符的边界概率分布的不确定性值以及相应的实体概率分布的不确定性值,输出实体识别结果的不确定性指示信息,可进一步衡量实体识别结果的可靠性,从而为后续任务提供可靠的指示。可见,本申请实施了可分别得到各个字符的边界概率分布的不确定性值和相应的实体概率分布的不确定性值,从而为实体识别结果提供更加丰富的指示信息,进而为后续任务提供更加丰富的指示;并且,本申请实施仅需通过一个目标模型来获取实体识别结果的不确定性指示信息,可有效节约存储空间。
基于上述命名实体识别方法的相关实施例的描述,本申请实施例还提出了一种命名实体识别装置,该命名实体识别装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)。该命名实体识别装置可以执行图2或图4所示的命名实体识别方法;请参见图5,所述命名实体识别装置可以运行如下单元:
获取单元501,用于获取目标文本中的各个字符的字符特征;
处理单元502,用于对所述各个字符的字符特征进行边界分类处理,得到所述各个字符的边界分类结果;任一边界分类结果包括:相应字符的边界概率分布和相应边界概率分布的不确定性值,边界概率分布指示相应字符属于每个边界类别的概率的分布情况;
所述处理单元502,还用于对所述各个字符的字符特征进行实体分类处理,得到所述各个字符的实体分类结果;任一实体分类结果包括:相应字符的实体概率分布和相应实体概率分布的不确定性值,实体概率分布指示相应字符属于每个实体类别的概率的分布情况;
所述处理单元502,还用于基于所述各个字符的边界概率分布和相应的实体概率分布,对所述目标文本进行命名实体识别,得到实体识别结果;并基于所述各个字符的边界概率分布的不确定性值以及相应的实体概率分布的不确定性值,输出所述实体识别结果的不确定性指示信息。
在一种实施方式中,处理单元502在对所述各个字符的字符特征进行边界分类处理,得到所述各个字符的边界分类结果时,可具体用于:
对任一字符的字符特征进行M次边界检测处理,得到M个边界参数组,M为正整数;一个边界参数组中包括:参数组权重、相应字符的边界概率分布所涉及的一个高斯分布的均值,以及用于描述相应高斯分布的波动情况的方差;
采用所述M个边界参数组中的各个边界参数组中的均值和方差,分别构建所述各个边界参数组对应的高斯分布;
按照所述各个边界参数组中的参数组权重,对相应的高斯分布进行加权求和,得到所述任一字符的边界概率分布;以及,按照所述各个边界参数组中的参数组权重,对所述各个边界参数组中的方差进行加权求和,得到相应边界概率分布的不确定性值。
另一种实施方式中,处理单元502在对任一字符的字符特征进行M次边界检测处理,得到M个边界参数组时,可具体用于:
获取第一高斯混合网络,所述第一高斯混合网络包括:用于进行边界检测处理的M个第一高斯子网络;
分别调用所述第一高斯混合网络中的各个第一高斯子网络,并行地对所述任一字符的字符特征进行边界检测处理,得到M个边界参数组。
另一种实施方式中,处理单元502在对所述各个字符的字符特征进行实体分类处理,得到所述各个字符的实体分类结果时,可具体用于:
对任一字符的字符特征进行N次实体检测处理,得到N个实体参数组,N为正整数;一个实体参数组中包括:参数组权重、相应字符的实体概率分布所涉及的一个高斯分布的均值,以及用于描述相应高斯分布的波动情况的方差;
采用所述N个实体参数组中的各个实体参数组中的均值和方差,分别构建所述各个实体参数组对应的高斯分布;
按照所述各个实体参数组中的参数组权重,对相应的高斯分布进行加权求和,得到所述任一字符的实体概率分布;以及,按照所述各个实体参数组中的参数组权重,对所述各个实体参数组中的方差进行加权求和,得到相应实体概率分布的不确定性值。
另一种实施方式中,处理单元502在对任一字符的字符特征进行N次实体检测处理,得到N个实体参数组时,可具体用于:
获取第二高斯混合网络,所述第二高斯混合网络包括:用于进行实体检测处理的N个第二高斯子网络;
分别调用所述第二高斯混合网络中的各个第二高斯子网络,并行地对所述任一字符的字符特征进行实体检测处理,得到N个实体参数组。
另一种实施方式中,处理单元502在基于所述各个字符的边界概率分布和相应的实体概率分布,对所述目标文本进行命名实体识别,得到实体识别结果时,可具体用于:
对所述各个字符的边界概率分布进行采样处理,得到所述各个字符的第一采样结果,任一字符的第一采样结果包括相应字符属于每个边界类别的概率;
对所述各个字符的实体概率分布进行采样处理,得到所述各个字符的第二采样结果,任一字符的第二采样结果包括相应字符属于每个实体类别的概率;
根据所述各个字符的第一采样结果和相应的第二采样结果,对所述目标文本进行命名实体识别,得到实体识别结果。
另一种实施方式中,处理单元502在根据所述各个字符的第一采样结果和相应的第二采样结果,对所述目标文本进行命名实体识别,得到实体识别结果时,可具体用于:
根据所述各个字符的第一采样结果,分别确定所述各个字符所属的目标边界类别;任一字符所属的目标边界类别是指:相应第一采样结果中最大的概率所对应的边界类别;
根据所述各个字符的第二采样结果,分别确定所述各个字符所属的目标实体类别;任一字符所属的目标实体类别是指:相应第二采样结果中最大的概率所对应的实体类别;
基于所述各个字符所属的目标边界类别和相应的目标实体类别,对所述目标文本进行命名实体识别,得到实体识别结果。
另一种实施方式中,实体识别结果是通过调用目标模型中的实体识别网络对所述目标文本进行命名实体识别得到的,所述目标模型还包括:用于确定任一字符的边界分类结果的第一高斯混合网络,以及用于确定任一字符的实体分类结果的第二高斯混合网络;其中,所述第一高斯混合网络是根据任一字符的M个边界参数组确定相应字符的边界分类结果的,所述第二高斯混合网络是根据任一字符的N个实体参数组确定相应字符的实体分类结果的;处理单元502还可用于:
获取所述各个字符的字符标注信息,任一字符标注信息包括:通过标注相应字符属于每个边界类别的概率所得到的边界标注信息,以及通过标注相应字符属于每个实体类别的概率所得到的实体标注信息;
根据所述各个字符的M个边界参数组和相应的边界标注信息,计算第一模型损失值;以及,根据所述各个字符的N个实体参数组和相应的实体标注信息,计算第二模型损失值;
对所述第一模型损失值和所述第二模型损失值进行加权求和,得到所述目标模型的目标模型损失值;并按照减小所述目标模型损失值的方向,优化所述目标模型。
另一种实施方式中,处理单元502在根据所述各个字符的M个边界参数组和相应的边界标注信息,计算第一模型损失值时,可具体用于:
分别对所述各个字符的各个边界参数组中的均值和相应字符的边界标注信息进行差值运算,得到多个第一差值;并根据每个第一差值和对应边界参数组中的方差,计算第一模型损失值;
处理单元502在根据所述各个字符的N个实体参数组和相应的实体标注信息,计算第二模型损失值时,可具体用于:
分别对所述各个字符的各个实体参数组中的均值和相应字符的实体标注信息进行差值运算,得到多个第二差值;并根据每个第二差值和对应实体参数组中的方差,计算第二模型损失值。
另一种实施方式中,处理单元502还可用于:
根据所述实体识别结果的不确定性指示信息,确定所述目标文本的文本类型,所述文本类型用于指示所述目标文本为不确定性文本或确定性文本;
若所述文本类型指示所述目标文本为不确定性文本,则将所述目标文本作为所述目标模型的训练样本,并触发执行所述获取所述各个字符的字符标注信息的步骤。
根据本申请的一个实施例,图2或图4所示的方法所涉及的各个步骤均可由图5所示的命名实体识别装置中的各个单元来执行的。例如,图2中所示的步骤S201可由图5中所示的获取单元501执行,步骤S202-S204均可由图5中所示的处理单元502执行。又如,图4中所示的步骤S401可由图5所示的获取单元501执行,步骤S402-S408均可由图5所示的处理单元502执行,等等。
根据本申请的另一个实施例,图5所示的命名实体识别装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,命名实体识别装置也可以包括其他单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图4中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图5中所示的命名实体识别装置,以及来实现本申请实施例的命名实体识别方法。所述计算机程序可以记载于例如计算机存储介质上,并通过计算机存储介质装载于上述计算设备中,并在其中运行。
本申请实施例在获取到目标文本的各个字符的字符特征后,可对各个字符的字符特征进行边界分类处理,得到各个字符的边界分类结果,任一边界分类结果包括:相应字符的边界概率分布和相应边界概率分布的不确定性值;并对各个字符的字符特征进行实体分类处理,得到各个字符的实体分类结果,任一实体分类结果包括:相应字符的实体概率分布和相应实体概率分布的不确定性值;然后,可基于各个字符的边界概率分布和相应的实体概率分布,对目标文本进行命名实体识别,得到较为准确的实体识别结果,可提升对目标文本进行命名实体识别的准确性,即可提升实体识别结果的准确性;进一步的,可基于各个字符的边界概率分布的不确定性值以及相应的实体概率分布的不确定性值,输出实体识别结果的不确定性指示信息,从而进一步指示了实体识别结果的准确性(即可信性),并可对后续任务的决策提供更加丰富的指示。
基于上述方法实施例以及装置实施例的描述,本申请实施例还提供一种计算机设备。请参见图6,该计算机设备至少包括处理器601、输入接口602、输出接口603以及计算机存储介质604。其中,计算机设备内的处理器601、输入接口602、输出接口603以及计算机存储介质604可通过总线或其他方式连接。
计算机存储介质604可以存储在计算机设备的存储器中,所述计算机存储介质604用于存储计算机程序,所述计算机程序包括程序指令,所述处理器601用于执行所述计算机存储介质604存储的程序指令。处理器601(或称CPU(Central Processing Unit,中央处理器))是计算机设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能;在一个实施例中,本申请实施例所述的处理器601可以用于进行一系列的命名实体识别,具体包括:获取目标文本中的各个字符的字符特征;对所述各个字符的字符特征进行边界分类处理,得到所述各个字符的边界分类结果;任一边界分类结果包括:相应字符的边界概率分布和相应边界概率分布的不确定性值,边界概率分布指示相应字符属于每个边界类别的概率的分布情况;对所述各个字符的字符特征进行实体分类处理,得到所述各个字符的实体分类结果;任一实体分类结果包括:相应字符的实体概率分布和相应实体概率分布的不确定性值,实体概率分布指示相应字符属于每个实体类别的概率的分布情况;基于所述各个字符的边界概率分布和相应的实体概率分布,对所述目标文本进行命名实体识别,得到实体识别结果;并基于所述各个字符的边界概率分布的不确定性值以及相应的实体概率分布的不确定性值,输出所述实体识别结果的不确定性指示信息,等等。
本申请实施例还提供了一种计算机存储介质(Memory),所述计算机存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了计算机设备的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的,还可以是至少一个位于远离前述处理器的计算机存储介质。在一个实施例中,可由处理器加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关图2或图4所示的命名实体识别方法的实施例中的各个方法步骤。
本申请实施例在获取到目标文本的各个字符的字符特征后,可对各个字符的字符特征进行边界分类处理,得到各个字符的边界分类结果,任一边界分类结果包括:相应字符的边界概率分布和相应边界概率分布的不确定性值;并对各个字符的字符特征进行实体分类处理,得到各个字符的实体分类结果,任一实体分类结果包括:相应字符的实体概率分布和相应实体概率分布的不确定性值;然后,可基于各个字符的边界概率分布和相应的实体概率分布,对目标文本进行命名实体识别,得到较为准确的实体识别结果,可提升对目标文本进行命名实体识别的准确性,即可提升实体识别结果的准确性;进一步的,可基于各个字符的边界概率分布的不确定性值以及相应的实体概率分布的不确定性值,输出实体识别结果的不确定性指示信息,从而进一步指示了实体识别结果的准确性(即可信性),并可对后续任务的决策提供更加丰富的指示。
需要说明的是,根据本申请的一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机存储介质中。计算机设备的处理器从计算机存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图2或图4所示的命名实体识别方法实施例方面的各种可选方式中提供的方法。
并且,应理解的是,以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (14)

1.一种命名实体识别方法,其特征在于,包括:
获取目标文本中的各个字符的字符特征;
对所述各个字符的字符特征进行边界分类处理,得到所述各个字符的边界分类结果;任一边界分类结果包括:相应字符的边界概率分布和相应边界概率分布的不确定性值,边界概率分布指示相应字符属于每个边界类别的概率的分布情况;
对所述各个字符的字符特征进行实体分类处理,得到所述各个字符的实体分类结果;任一实体分类结果包括:相应字符的实体概率分布和相应实体概率分布的不确定性值,实体概率分布指示相应字符属于每个实体类别的概率的分布情况;
基于所述各个字符的边界概率分布和相应的实体概率分布,对所述目标文本进行命名实体识别,得到实体识别结果;并基于所述各个字符的边界概率分布的不确定性值以及相应的实体概率分布的不确定性值,输出所述实体识别结果的不确定性指示信息。
2.如权利要求1所述的方法,其特征在于,所述对所述各个字符的字符特征进行边界分类处理,得到所述各个字符的边界分类结果,包括:
对任一字符的字符特征进行M次边界检测处理,得到M个边界参数组,M为正整数;一个边界参数组中包括:参数组权重、相应字符的边界概率分布所涉及的一个高斯分布的均值,以及用于描述相应高斯分布的波动情况的方差;
采用所述M个边界参数组中的各个边界参数组中的均值和方差,分别构建所述各个边界参数组对应的高斯分布;
按照所述各个边界参数组中的参数组权重,对相应的高斯分布进行加权求和,得到所述任一字符的边界概率分布;以及,按照所述各个边界参数组中的参数组权重,对所述各个边界参数组中的方差进行加权求和,得到相应边界概率分布的不确定性值。
3.如权利要求2所述的方法,其特征在于,所述对任一字符的字符特征进行M次边界检测处理,得到M个边界参数组,包括:
获取第一高斯混合网络,所述第一高斯混合网络包括:用于进行边界检测处理的M个第一高斯子网络;
分别调用所述第一高斯混合网络中的各个第一高斯子网络,并行地对所述任一字符的字符特征进行边界检测处理,得到M个边界参数组。
4.如权利要求1所述的方法,其特征在于,所述对所述各个字符的字符特征进行实体分类处理,得到所述各个字符的实体分类结果,包括:
对任一字符的字符特征进行N次实体检测处理,得到N个实体参数组,N为正整数;一个实体参数组中包括:参数组权重、相应字符的实体概率分布所涉及的一个高斯分布的均值,以及用于描述相应高斯分布的波动情况的方差;
采用所述N个实体参数组中的各个实体参数组中的均值和方差,分别构建所述各个实体参数组对应的高斯分布;
按照所述各个实体参数组中的参数组权重,对相应的高斯分布进行加权求和,得到所述任一字符的实体概率分布;以及,按照所述各个实体参数组中的参数组权重,对所述各个实体参数组中的方差进行加权求和,得到相应实体概率分布的不确定性值。
5.如权利要求4所述的方法,其特征在于,所述对任一字符的字符特征进行N次实体检测处理,得到N个实体参数组,包括:
获取第二高斯混合网络,所述第二高斯混合网络包括:用于进行实体检测处理的N个第二高斯子网络;
分别调用所述第二高斯混合网络中的各个第二高斯子网络,并行地对所述任一字符的字符特征进行实体检测处理,得到N个实体参数组。
6.如权利要求1-5任一项所述的方法,其特征在于,所述基于所述各个字符的边界概率分布和相应的实体概率分布,对所述目标文本进行命名实体识别,得到实体识别结果,包括:
对所述各个字符的边界概率分布进行采样处理,得到所述各个字符的第一采样结果,任一字符的第一采样结果包括相应字符属于每个边界类别的概率;
对所述各个字符的实体概率分布进行采样处理,得到所述各个字符的第二采样结果,任一字符的第二采样结果包括相应字符属于每个实体类别的概率;
根据所述各个字符的第一采样结果和相应的第二采样结果,对所述目标文本进行命名实体识别,得到实体识别结果。
7.如权利要求6所述的方法,其特征在于,所述根据所述各个字符的第一采样结果和相应的第二采样结果,对所述目标文本进行命名实体识别,得到实体识别结果,包括:
根据所述各个字符的第一采样结果,分别确定所述各个字符所属的目标边界类别;任一字符所属的目标边界类别是指:相应第一采样结果中最大的概率所对应的边界类别;
根据所述各个字符的第二采样结果,分别确定所述各个字符所属的目标实体类别;任一字符所属的目标实体类别是指:相应第二采样结果中最大的概率所对应的实体类别;
基于所述各个字符所属的目标边界类别和相应的目标实体类别,对所述目标文本进行命名实体识别,得到实体识别结果。
8.如权利要求1-5任一项所述的方法,其特征在于,所述实体识别结果是通过调用目标模型中的实体识别网络对所述目标文本进行命名实体识别得到的,所述目标模型还包括:用于确定任一字符的边界分类结果的第一高斯混合网络,以及用于确定任一字符的实体分类结果的第二高斯混合网络;其中,所述第一高斯混合网络是根据任一字符的M个边界参数组确定相应字符的边界分类结果的,所述第二高斯混合网络是根据任一字符的N个实体参数组确定相应字符的实体分类结果的;
其中,所述方法还包括:
获取所述各个字符的字符标注信息,任一字符标注信息包括:通过标注相应字符属于每个边界类别的概率所得到的边界标注信息,以及通过标注相应字符属于每个实体类别的概率所得到的实体标注信息;
根据所述各个字符的M个边界参数组和相应的边界标注信息,计算第一模型损失值;以及,根据所述各个字符的N个实体参数组和相应的实体标注信息,计算第二模型损失值;
对所述第一模型损失值和所述第二模型损失值进行加权求和,得到所述目标模型的目标模型损失值;并按照减小所述目标模型损失值的方向,优化所述目标模型。
9.如权利要求8所述的方法,其特征在于,所述根据所述各个字符的M个边界参数组和相应的边界标注信息,计算第一模型损失值,包括:
分别对所述各个字符的各个边界参数组中的均值和相应字符的边界标注信息进行差值运算,得到多个第一差值;并根据每个第一差值和对应边界参数组中的方差,计算第一模型损失值;
所述根据所述各个字符的N个实体参数组和相应的实体标注信息,计算第二模型损失值,包括:
分别对所述各个字符的各个实体参数组中的均值和相应字符的实体标注信息进行差值运算,得到多个第二差值;并根据每个第二差值和对应实体参数组中的方差,计算第二模型损失值。
10.如权利要求8所述的方法,其特征在于,所述方法还包括:
根据所述实体识别结果的不确定性指示信息,确定所述目标文本的文本类型,所述文本类型用于指示所述目标文本为不确定性文本或确定性文本;
若所述文本类型指示所述目标文本为不确定性文本,则将所述目标文本作为所述目标模型的训练样本,并触发执行所述获取所述各个字符的字符标注信息的步骤。
11.一种命名实体识别装置,其特征在于,包括:
获取单元,用于获取目标文本中的各个字符的字符特征;
处理单元,用于对所述各个字符的字符特征进行边界分类处理,得到所述各个字符的边界分类结果;任一边界分类结果包括:相应字符的边界概率分布和相应边界概率分布的不确定性值,边界概率分布指示相应字符属于每个边界类别的概率的分布情况;
所述处理单元,还用于对所述各个字符的字符特征进行实体分类处理,得到所述各个字符的实体分类结果;任一实体分类结果包括:相应字符的实体概率分布和相应实体概率分布的不确定性值,实体概率分布指示相应字符属于每个实体类别的概率的分布情况;
所述处理单元,还用于基于所述各个字符的边界概率分布和相应的实体概率分布,对所述目标文本进行命名实体识别,得到实体识别结果;并基于所述各个字符的边界概率分布的不确定性值以及相应的实体概率分布的不确定性值,输出所述实体识别结果的不确定性指示信息。
12.一种计算机设备,其特征在于,包括处理器和存储器,其中,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1-10中任一项所述的方法。
13.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-10中任一项所述的方法。
14.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-10中任一项所述的方法。
CN202210513349.XA 2022-05-12 2022-05-12 命名实体识别方法、装置、设备及存储介质 Pending CN115130474A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210513349.XA CN115130474A (zh) 2022-05-12 2022-05-12 命名实体识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210513349.XA CN115130474A (zh) 2022-05-12 2022-05-12 命名实体识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115130474A true CN115130474A (zh) 2022-09-30

Family

ID=83376112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210513349.XA Pending CN115130474A (zh) 2022-05-12 2022-05-12 命名实体识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115130474A (zh)

Similar Documents

Publication Publication Date Title
CN113158554B (zh) 模型优化方法、装置、计算机设备及存储介质
CN116824278B (zh) 图像内容分析方法、装置、设备和介质
CN113298197B (zh) 数据聚类方法、装置、设备及可读存储介质
CN111915086A (zh) 异常用户预测方法和设备
CN114330966A (zh) 一种风险预测方法、装置、设备以及可读存储介质
CN111488950B (zh) 分类模型信息输出方法及装置
CN115130474A (zh) 命名实体识别方法、装置、设备及存储介质
CN115131600A (zh) 检测模型训练方法、检测方法、装置、设备及存储介质
CN115129849A (zh) 题目表示的获取方法、设备以及计算机可读存储介质
CN112132269B (zh) 模型处理方法、装置、设备及存储介质
CN114880991A (zh) 知识图谱问答问句实体链接方法、装置、设备及介质
CN115131058A (zh) 账号识别方法、装置、设备及存储介质
CN111935259B (zh) 目标帐号集合的确定方法和装置、存储介质及电子设备
CN113657092A (zh) 识别标签的方法、装置、设备以及介质
CN112149426A (zh) 阅读任务处理方法及相关设备
CN111615178A (zh) 识别无线网络类型及模型训练的方法、装置及电子设备
CN116051155B (zh) 用户识别方法、装置、设备、存储介质和程序产品
CN117711001B (zh) 图像处理方法、装置、设备和介质
CN117649117B (zh) 处置方案的确定方法、装置以及计算机设备
CN115203420B (zh) 实体关系分类模型训练方法、实体关系分类方法及装置
CN117725923A (zh) 文本匹配方法、装置、设备及介质
CN117033996A (zh) 文档处理方法、装置及计算机设备、存储介质、程序产品
CN116975616A (zh) 一种数据处理方法、装置、设备、存储介质及产品
CN116976314A (zh) 一种文本处理方法、装置、设备、存储介质及产品
CN113569041A (zh) 文本检测方法、装置、计算机设备以及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination