CN116956911A - 实体识别模型的生成方法及实体识别方法 - Google Patents

实体识别模型的生成方法及实体识别方法 Download PDF

Info

Publication number
CN116956911A
CN116956911A CN202211532563.6A CN202211532563A CN116956911A CN 116956911 A CN116956911 A CN 116956911A CN 202211532563 A CN202211532563 A CN 202211532563A CN 116956911 A CN116956911 A CN 116956911A
Authority
CN
China
Prior art keywords
entity
information
sample data
sub
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211532563.6A
Other languages
English (en)
Inventor
杨韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202211532563.6A priority Critical patent/CN116956911A/zh
Publication of CN116956911A publication Critical patent/CN116956911A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开关于实体识别模型的生成方法及实体识别方法,包括:获取样本数据集和样本数据集中每一样本数据对应的子数据的样本实体信息;对样本数据集进行多次分组,得到每次分组对应的第一数量个样本数据组;将每次分组对应的第一样本数据组输入第一样本数据组对应的预设实体识别模型中进行实体识别处理,得到第一样本数据组中任一样本数据对应的子数据的实体类别分布信息;基于上述实体类别分布信息,对预设权重信息和样本实体信息进行修正处理,得到修正权重信息和修正实体信息;基于修正权重信息和修正实体信息对待训练实体识别模型进行训练,得到目标实体识别模型。利用本公开实施例可以提高样本实体信息的准确度,进而提高模型的识别准确度。

Description

实体识别模型的生成方法及实体识别方法
技术领域
本公开涉及人工智能技术领域,尤其涉及一种实体识别模型的生成方法及实体识别方法。
背景技术
命名实体识别作为一项自然语言处理(NLP,Natural Language Processing)底层技术,在众多产品和应用中都有非常广泛的应用。现有的实体识别模型通常是基于针对目标实体标注的一批训练数据训练得到的。而上述方法中存在一个问题,就是需要大量的标注数据,对标注成本有比较大的压力。因此,目前改进的方法是,采用远监督方式去构造大量的训练数据。具体的,可以先收集一个想识别的目标实体的词典,例如,目标实体的词典可以包括人名词典或地名词典等;然后用这个词典里的词去标记大量文本,这样就能得到大量的回标的训练数据。
在得到了上述回标的训练数据后,由于回标的训练数据里面含有噪声,所以一般需要对这份数据通过各种规则进行去噪,得到一份更干净一点的训练数据,然后用上述训练数据训练模型。但是,通过上述规则去噪的方式,训练数据中仍然会含有不少噪声,导致训练得到的实体识别模型的实体识别准确度不足。
发明内容
有鉴于上述存在的技术问题,本公开提出了一种实体识别模型的生成方法及实体识别方法。
根据本公开实施例的一方面,提供一种实体识别模型的生成方法,包括:
获取样本数据集和所述样本数据集中每一样本数据对应的子数据的样本实体信息;
对所述样本数据集进行多次分组,得到每次分组对应的第一数量个样本数据组;
将所述每次分组对应的第一样本数据组输入所述第一样本数据组对应的预设实体识别模型中进行实体识别处理,得到所述第一样本数据组中任一样本数据对应的子数据的实体类别分布信息;所述预设实体识别模型为基于第二样本数据组对预设机器学习模型训练得到的,所述第一样本数据组为所述每次分组对应的第一数量个样本数据组中任一样本数据组,所述第二样本数据组为所述每次分组对应的第一数量个样本数据组中除所述第一样本数据组之外的样本数据组;
基于多次分组对应的所述实体类别分布信息,对预设权重信息和所述样本实体信息进行修正处理,得到修正权重信息和所述样本数据集中每一样本数据对应的子数据的修正实体信息;所述预设权重信息表征所述样本数据集中每一样本数据对应的子数据在所述每一样本数据中的重要程度;
基于所述修正权重信息和所述修正实体信息,对待训练实体识别模型进行训练,得到目标实体识别模型。
根据本公开实施例的另一方面,提供一种实体识别方法,包括:
获取待识别文本信息;
将所述待识别文本信息输入至目标实体识别模型进行实体识别处理,得到实体识别结果;
其中,所述目标实体识别模型为基于上述的实体识别模型的生成方法得到的。
根据本公开实施例的另一方面,提供一种实体识别模型的生成装置,包括:
数据获取模块,用于获取样本数据集和所述样本数据集中每一样本数据对应的子数据的样本实体信息;
分组模块,用于对所述样本数据集进行多次分组,得到每次分组对应的第一数量个样本数据组;
第一实体识别处理模块,用于将所述每次分组对应的第一样本数据组输入所述第一样本数据组对应的预设实体识别模型中进行实体识别处理,得到所述第一样本数据组中任一样本数据对应的子数据的实体类别分布信息;所述预设实体识别模型为基于第二样本数据组对预设机器学习模型训练得到的,所述第一样本数据组为所述每次分组对应的第一数量个样本数据组中任一样本数据组,所述第二样本数据组为所述每次分组对应的第一数量个样本数据组中除所述第一样本数据组之外的样本数据组;
修正处理模块,用于基于多次分组对应的所述实体类别分布信息,对预设权重信息和所述样本实体信息进行修正处理,得到修正权重信息和所述样本数据集中每一样本数据对应的子数据的修正实体信息;所述预设权重信息表征所述样本数据集中每一样本数据对应的子数据在所述每一样本数据中的重要程度;
第一模型训练模块,用于基于所述修正权重信息和所述修正实体信息,对待训练实体识别模型进行训练,得到目标实体识别模型。
根据本公开实施例的另一方面,提供一种实体识别装置,包括:
文本信息获取模块,用于获取待识别文本信息;
实体识别结果获取模块,用于将所述待识别文本信息输入至目标实体识别模型进行实体识别处理,得到实体识别结果;其中,所述目标实体识别模型为基于上述的实体识别模型的生成方法得到的。
根据本公开实施例的另一方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现上述实体识别模型的生成方法或上述实体识别方法。
根据本公开实施例的另一方面,提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行上述实体识别模型的生成方法或上述实体识别方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
通过获取样本数据集和样本数据集中每一样本数据对应的子数据的样本实体信息,对样本数据集进行多次分组,得到每次分组对应的第一数量个样本数据组,可以保证每次分组对应的第一数量个样本数据组中样本数据的随机性,进而可以提高模型训练效率,再将每次分组对应的第一样本数据组输入第一样本数据组对应的预设实体识别模型中进行实体识别处理,得到第一样本数据组中任一样本数据对应的子数据的实体类别分布信息,其中,预设实体识别模型为基于第二样本数据组对预设机器学习模型训练得到的,第一样本数据组为每次分组对应的第一数量个样本数据组中任一样本数据组,第二样本数据组为每次分组对应的第一数量个样本数据组中除第一样本数据组之外的样本数据组,可以避免上述实体类别分布信息过拟合,进而可以提高修正处理的准确度,再结合多次分组对应的实体类别分布信息,对预设权重信息和样本实体信息进行修正处理,得到修正权重信息和样本数据集中每一样本数据对应的子数据的修正实体信息,可以实现基于不确定性对样本数据集和对应的样本实体信息进行噪音修正,提高样本实体信息的准确度,接着,结合修正权重信息和修正实体信息,对待训练实体识别模型进行训练,得到目标实体识别模型,可以提高目标实体识别模型的实体识别处理的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种应用系统的示意图;
图2是根据一示例性实施例示出的一种实体识别模型的生成方法的流程图;
图3是根据一示例性实施例示出的一种目标实体识别模型的模型示意图;
图4是根据一示例性实施例示出的一种实体识别模型的生成装置的框图;
图5是根据一示例性实施例示出的一种用于生成目标实体识别模型或用于实体识别处理的电子设备的框图;
图6是根据一示例性实施例示出的另一种用于生成目标实体识别模型或用于实体识别处理的电子设备的框图。
具体实施方式
以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本申请,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本申请同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本申请的主旨。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
近年来,随着人工智能技术研究和进步,人工智能技术在多个领域得到广泛应用,本申请实施例提供的方案涉及机器学习/深度学习等技术,具体通过如下实施例进行说明:
请参阅图1,图1是根据一示例性实施例示出的一种应用系统的示意图。所述应用系统可以用于本申请的实体识别模型的生成方法或实体识别方法。如图1所示,该应用系统至少可以包括服务器01和终端02。
本申请实施例中,服务器01可以用于生成目标实体识别模型,或者基于目标实体识别模型,对待识别文本信息进行实体识别处理。具体地,上述服务器01可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
本申请实施例中,终端02可以用于生成待识别文本信息。上述终端02可以包括智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、车载终端、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、智能可穿戴设备等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。本申请实施例中上述终端02上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。
此外,需要说明的是,图1所示的仅仅是本公开提供的一种应用环境,在实际应用中,还可以包括其他应用环境,例如,基于目标实体识别模型,对待识别文本信息进行实体识别处理的过程,也可以在终端02上实现。
本说明书实施例中,上述终端02以及服务器01可以通过有线或无线通信方式进行直接或间接地连接,本申请对此不作限定。
需要说明的是,以下图中示出的是一种可能的步骤顺序,实际上并不限定必须严格按照此顺序。有些步骤可以在互不依赖的情况下并行执行。
具体地,图2是根据一示例性实施例示出的一种实体识别模型的生成方法的流程图。如图2所示,该实体识别模型的生成方法可以用于终端或服务器等电子设备中,具体可以包括以下步骤:
在步骤S201中,获取样本数据集和样本数据集中每一样本数据对应的子数据的样本实体信息。
在一个具体的实施例中,样本数据集可以是指需要去噪的训练数据集合中样本数据的集合。样本数据集可以包括多个样本数据。每个样本数据可以是指待识别的样本文本信息。每个样本数据可以包括多个子数据。任一样本数据中的任一子数据可以是指该样本数据中的任一文本单元。示例性的,样本数据可以是“我今天通读了下这篇文章,写的很好呢”,其中,“我”和“今”等上述文本信息中的每一个字可以是该样本数据中的一个子数据。
在一个具体的实施例中,样本数据集中每一样本数据对应的子数据的样本实体信息可以是指需要去噪的训练数据集合中的每一样本数据的每个子数据所属的实体信息。其中,每个子数据对应的实体信息可以表征该子数据所属的实体类别。示例性的,样本实体信息可以包括地名-B(即实体类别为地名的实体开头)、地名-I(即实体类别为地名的实体中间)、地名-E(即实体类别为地名的实体结尾)、地名-S(即实体类别为地名的单字实体)或O(即实体类别为其他)等。
在一个具体的实施例中,可以先获取知识图谱中的多个实体分词信息和多个样本文本信息,再结合上述多个实体分词信息与多个样本文本信息进行匹配,得到匹配结果,上述匹配结果可以用于指示上述多个样本文本信息中属于实体分词的文本信息,接着,结合上述匹配结果,可以得到任一样本文本信息中的每个文本单元对应的实体信息,相应的,基于上述任一样本文本信息中的每个文本单元对应的实体信息,可以得到样本数据集中每一样本数据对应的子数据的样本实体信息,并可以将上述多个样本文本信息作为样本数据集。
在上述实施例中,通过与知识图谱中的多个实体分词信息进行匹配,得到样本数据集和样本数据集中每一样本数据对应的子数据的样本实体信息,可以实现上述样本数据集和上述样本实体信息的快速获取,减少人工标注成本,提高训练数据的生成效率,进而提高模型训练效率。
在步骤S203中,对样本数据集进行多次分组,得到每次分组对应的第一数量个样本数据组。
在一个具体的实施例中,第一数量可以是指样本数据组的数量。具体的,第一数量可以是根据实际应用需要设定的,可选的,第一数量可以大于等于2,示例性的,第一数量可以是5。
在一个具体的实施例中,样本数据组可以是指样本数据的组合。样本数据组可以包括至少一个样本数据。
在一个具体的实施例中,通过对样本数据集进行随机分组,可以得到第一数量个样本数据组;在此基础上,可以通过多次分组,可以得到每次分组对应的第一数量个样本数据组。可以理解的是,不同次分组中的样本数据组中的样本数据可以是不同的;不同次分组时的第一数量也可以是不同的。
在上述实施例中,通过对样本数据集进行多次分组,可以保证每次分组对应的第一数量个样本数据组中样本数据的随机性,进而可以提高模型训练效率。
在步骤S205中,将每次分组对应的第一样本数据组输入第一样本数据组对应的预设实体识别模型中进行实体识别处理,得到第一样本数据组中任一样本数据对应的子数据的实体类别分布信息。
在一个具体的实施例中,第一样本数据组可以是指每次分组对应的第一数量个样本数据组中的任一样本数据组。第一样本数据组可以包括至少一个样本数据。第二样本数据组可以是指每次分组对应的第一数量个样本数据组中除第一样本数据组之外的样本数据组。第二样本数据组可以包括多个样本数据。
在一个具体的实施例中,预设实体识别模型可以为基于第二样本数据组对预设机器学习模型训练得到的。其中,预设机器学习模型可以是指待训练的实体识别模型;预设机器学习模型可以包括第一编码层和第一分类层。预设实体识别模型可以用于识别待识别文本中是否存在实体以及识别该实体所属的实体类别。预设实体识别模型可以包括第二编码层和第二分类层。具体的,预设实体识别模型的编码层可以用于对输入至模型中的文本信息进行编码处理,得到特征信息;分类层可以用于对上述特征信息进行分类处理,得到输入至模型中的文本信息中每个文本单元对应的实体信息。具体的,可以先从每次分组对应的第一数量个样本数据组中,确定每次分组对应的第一样本数据组和每次分组对应的第二样本数据组,再基于每次分组对应的第二样本数据组,对预设机器学习模型进行训练,可以得到每次分组对应的预设实体识别模型。可以理解的是,不同的第一样本数据组对应的预设实体识别模型可以是不同的,即任意一次分组对应的第一样本数据组对应的预设实体识别模型是基于上述第一样本数据组对应的第二样本数据组,对预设机器学习模型训练得到的。
在一个具体的实施例中,在上述步骤S205之前,上述方法还可以包括:
基于第二样本数据组和第二样本数据组中每一样本数据对应的子数据的样本实体信息,确定第一当前数据集和第一当前数据集中每一样本数据对应的子数据的第一当前实体信息;
将第一当前数据集输入至预设机器学习模型进行实体识别处理,得到第一当前数据集中每一样本数据对应的子数据的第一当前分布信息;
基于预设权重信息、第一当前分布信息和第一当前实体信息,确定第一损失信息;
根据第一损失信息,对预设机器学习模型进行更新,基于更新后的预设机器学习模型,重复基于第二样本数据组和第二样本数据组中每一样本数据对应的子数据的样本实体信息,确定第一当前数据集和第一当前数据集中每一样本数据对应的子数据的第一当前实体信息至根据第一损失信息,对预设机器学习模型进行更新的步骤,直至满足第二收敛条件;
基于满足第二收敛条件时的预设机器学习模型,确定预设实体识别模型。
在一个具体的实施例中,第一当前数据集可以是指在多轮训练预设机器学习模型的过程中,在当前训练轮次下训练模型的数据集。第一当前数据集可以包括第二样本数据组中的至少一个样本数据。
在一个具体的实施例中,第一当前实体信息可以表征第一当前数据集中每一样本数据对应的子数据各自所属的实体类别。第一当前实体信息可以包括第一当前数据集中每一样本数据对应的任一子数据对应的实体信息。
在一个具体的实施例中,可以从上述第二样本数据组中,选出至少一个样本数据作为第一当前数据集,再基于上述第一当前数据集中的样本数据和每一样本数据对应的子数据的样本实体信息,可以得到上述第一当前实体信息。
在一个具体的实施例中,第一当前分布信息可以表征第一当前数据集中每一样本数据对应的子数据属于多个预设实体信息的概率。其中,多个预设实体信息可以是指需要训练模型能够识别的多个实体类别。第一当前分布信息可以包括多个第一当前概率,其中,任一第一当前概率可以是指第一当前数据集中每一样本数据对应的任一子数据属于任一预设实体信息的概率。
在一个具体的实施例中,可以将第一当前数据集输入至预设机器学习模型中的第一编码层进行编码处理,得到第一当前数据集对应的第一当前特征信息;再将上述第一当前特征信息输入至预设机器学习模型中的第一分类层进行分类处理,可以得到第一当前数据集对应的第一当前分布信息。
在一个具体的实施例中,预设权重信息可以表征样本数据集中每一样本数据对应的子数据在每一样本数据中的重要程度。预设权重信息可以包括样本数据集中每一样本数据对应的任一子数据的权重信息。具体的,在预设权重信息修改前,任一子数据的权重信息可以是“1”。
在一个具体的实施例中,第一损失信息可以用于在多轮训练预设机器学习模型的过程中,为当前训练轮次的模型更新提供参考。第一损失信息可以表征第一当前分布信息和第一当前实体信息之间的偏差程度。
在一个具体的实施例中,第一损失信息可以通过以下公式得到:
其中,loss1为第一损失信息;Wi_1为第一当前数据集中第i个子数据的权重信息;Pi_label_1为第一当前实体信息中第i个子数据对应的实体信息在第一当前分布信息中第i个子数据对应的分布信息中对应的概率;n为样本数据集中的子数据的数量。
在一个具体的实施例中,第二收敛条件可以是用于预设机器学习模型训练的收敛条件。第二收敛条件可以包括第二训练迭代次数大于等于第二预设迭代次数,或第一损失信息小于等于第一预设损失信息等。其中,第二训练迭代次数可以是指预设机器学习模型训练过程中的迭代次数。第二预设迭代次数和第一预设损失信息可以根据实际应用需要进行设定,本公开不作限定。
在一个具体的实施例中,基于第一损失信息,可以对上述预设机器学习模型中的模型参数进行更新,可以得到更新后的预设机器学习模型,基于更新后的预设机器学习模型,重复上述基于第二样本数据组和第二样本数据组中每一样本数据对应的子数据的样本实体信息,确定第一当前数据集和第一当前数据集中每一样本数据对应的子数据的第一当前实体信息至上述根据第一损失信息,对预设机器学习模型进行更新的步骤,直至满足第二收敛条件。具体的,可以基于第一损失信息,确定更新梯度,并基于该更新梯度,对预设机器学习模型中的模型参数进行更新;其中,可以基于梯度下降的方式,对预设机器学习模型进行训练优化。
在一个具体的实施例中,可以将达到第二收敛条件时得到的预设机器学习模型,作为预设实体识别模型。
在一个具体的实施例中,实体类别分布信息可以表征预设实体识别模型预测的第一样本数据组中任一子数据属于多个预设实体信息的概率。每次分组对应的第一样本数据组对应的实体类别分布信息可以包括每次分组对应的第一样本数据组中每一样本数据的多个子数据各自对应的概率。
在一个具体的实施例中,将每次分组对应的第一样本数据组输入每次分组对应的预设实体识别模型中进行实体识别处理,可以得到第一样本数据组中任一样本数据对应的子数据的实体类别分布信息。具体的,可以将每次分组对应的第一样本数据组输入每次分组对应的预设实体识别模型中的第二编码层进行编码处理,得到每次分组对应的第一样本数据组中每一样本数据对应的特征信息,再将上述每一样本数据对应的特征信息输入至其对应的预设实体识别模型中的第二分类层进行分类处理,可以得到上述实体类别分布信息。
示例性的,以其中一次分组对应的第一数量为5为例,对样本数据集进行分组,可以得到5个样本数据组,其中,5个样本数据组可以分别为样本数据组D1、样本数据组D2、样本数据组D3、样本数据组D4和样本数据组D5。可以分别将样本数据组D1~D5依次作为第一样本数据组,可以理解的是,以样本数据组D1为第一样本数据组为例,该第一样本数据组(即样本数据组D1)对应的第二样本数据组为D2~D4。通过样本数据组D2~D4训练得到的预设实体识别模型,是样本数据组D1对应的预设实体识别模型;通过样本数据组D1、D3、D4和D5训练得到的预设实体识别模型,是样本数据组D2对应的预设实体识别模型,依次类推,通过上述5个样本数据组各自对应的第二样本数据组对预设机器学习模型进行训练,可以得到上述5个样本数据组分别作为第一样本数据组时对应的预设实体识别模型。
进一步的,将样本数据组D1输入至样本数据组D1对应的预设实体识别模型进行实体识别处理,可以得到样本数据组D1中每一样本数据对应的子数据的实体类别分布信息;将样本数据组D2输入至样本数据组D2对应的预设实体识别模型进行实体识别处理,可以得到样本数据组D2中每一样本数据对应的子数据的实体类别分布信息,以此类推,可以得到其中一次分组对应的5个样本数据组中的每一样本数据对应的子数据的实体类别分布信息。在此基础上,通过对样本数据集进行多次分组,将每次分组对应的第一样本数据组输入第一样本数据组对应的预设实体识别模型中进行实体识别处理,得到第一样本数据组中任一样本数据对应的子数据的实体类别分布信息;示例性的,以分组次数为K为例,可以得到样本数据集中任一子数据对应的K个实体类别分布信息。
在上述实施例中,通过每次分组对应的第二样本数据组对预设机器学习模型训练,得到每次分组对应的预设实体识别模型,将每次分组对应的第一样本数据组输入第一样本数据组对应的预设实体识别模型中进行实体识别处理,得到第一样本数据组中任一样本数据对应的子数据的实体类别分布信息,可以避免上述实体类别分布信息过拟合,进而可以提高修正处理的准确度。
在一个具体的实施例中,上述基于第二样本数据组和第二样本数据组中每一样本数据对应的子数据的样本实体信息,确定第一当前数据集和第一当前数据集中每一样本数据对应的子数据的第一当前实体信息之前,上述方法还可以包括:
将第二样本数据组中第一样本数据组对应的关联样本数据删除,得到删除后的第二样本数据组;
相应的,上述基于第二样本数据组和第二样本数据组中每一样本数据对应的子数据的样本实体信息,确定第一当前数据集和第一当前数据集中每一样本数据对应的子数据的第一当前实体信息,可以包括:
基于删除后的第二样本数据组和删除后的第二样本数据组中每一样本数据对应的子数据的样本实体信息,确定第一当前数据集和第一当前实体信息。
在一个具体的实施例中,第一样本数据组对应的关联样本数据可以是指第二样本数据组中,存在与第一样本数据组对应的至少一个实体分词相同的实体分词的样本数据。关联样本数据可以包括第二样本数据组中的至少一个样本数据。示例性的,假设第一样本数据组包括样本数据“某大学是A市的一所重点大学”,该样本数据包括实体分词“某大学”和“A市”,关联样本数据可以包括第二样本数据组中存在实体分词“某大学”或实体分词“A市”的样本数据。
在一个具体的实施例中,可以从删除后的第二样本数据组中,选出至少一个样本数据,作为第一当前数据集,相应的,再基于上述第一当前数据集中的样本数据,以及删除后的第二样本数据组中每一样本数据对应的子数据的样本实体信息,可以得到上述第一当前实体信息。
在上述实施例中,通过将第二样本数据组中第一样本数据组对应的关联样本数据删除,得到删除后的第二样本数据组,基于删除后的第二样本数据组和删除后的第二样本数据组中每一样本数据对应的子数据的样本实体信息,确定第一当前数据集和第一当前实体信息,可以进一步地避免得到的实体类别分布信息过拟合,进而可以提高修正处理的准确度。
在步骤S207中,基于多次分组对应的实体类别分布信息,对预设权重信息和样本实体信息进行修正处理,得到修正权重信息和样本数据集中每一样本数据对应的子数据的修正实体信息。
在一个具体的实施例中,预设权重信息可以表征样本数据集中每一样本数据对应的子数据在每一样本数据中的重要程度。
在一个具体的实施例中,修正权重信息可以是指修正后的预设权重信息。修正实体信息可以是指修正后的样本实体信息。
在一个具体的实施例中,上述步骤S207可以包括:
基于多次分组对应的实体类别分布信息,对样本数据集中每一样本数据的任一子数据进行实体类别预测,得到任一子数据对应的第二数量个预测实体信息;
确定第二数量个预测实体信息中每种预测实体信息对应的第三数量;
将任一子数据对应的第三数量最大的预测实体信息,作为任一子数据对应的目标预测实体信息;
基于任一子数据对应的目标预测实体信息对应的第三数量和第二数量,确定任一子数据对应的目标数量占比;
在任一子数据对应的目标数量占比大于等于预设数量占比,且任一子数据对应的目标预测实体信息与任一子数据对应的样本实体信息不同的情况下,将任一子数据对应的目标预测实体信息,作为任一子数据对应的修正实体信息。
在一个具体的实施例中,第二数量可以与分组次数相同。可以理解的是,在多次分组过程中得到的任一子数据对应的实体类别分布信息的数量可以是第二数量。
在一个具体的实施例中,任一子数据对应的预测实体信息可以表征预设实体识别模型预测的任一子数据所属的实体类别。任一子数据对应的预测实体信息可以是多个预设实体信息中的一个。
在一个具体的实施例中,基于任一子数据对应的其中一个实体类别分布信息,对任一子数据进行实体类别预测,可以得到任一子数据对应的第二数量个预测实体信息中的其中一个预测实体信息。具体的,可以从任一实体类别分布信息中的多个概率中,选出最大概率,并将该最大概率对应的预设实体信息,作为该实体类别分布信息对应的任一子数据对应的预测实体信息,相应的,基于多次分组对应的实体类别分布信息,可以得到任一子数据对应的第二数量个预测实体信息。
在一个具体的实施例中,第三数量可以是指第二数量个预测实体信息中每种预测实体信息的数量。
在一个具体的实施例中,可以先从第二数量个预测实体信息中筛选出不同的预测实体信息,得到至少一种预测实体信息,再基于第二数量个预测实体信息,对每种预测实体信息进行统计处理,可以得到任一子数据对应的每种预测实体信息的数量,相应的,可以得到第二数量个预测实体信息中每种预测实体信息对应的第三数量。
在一个具体的实施例中,任一子数据对应的目标预测实体信息可以是指基于任一子数据对应的第二数量个预测实体信息预测的任一子数据对应的实体信息。任一子数据对应的目标预测实体信息可以表征该子数据所属的实体类别。
在一个具体的实施例中,可以从样本数据集中任一子数据对应的至少一种预测实体信息各自对应的第三数量中,选出最大的第三数量,将该最大的第三数量对应的预测实体信息,可以作为上述任一子数据对应的目标预测实体信息。
在一个具体的实施例中,目标数量占比可以是指上述任一子数据对应的目标预测实体信息对应的第三数量相对于第二数量的占比。具体的,将样本数据集中任一子数据对应的目标预测实体信息对应的第三数量除以上述第二数量,可以得到上述任一子数据对应的目标数量占比。
在一个具体的实施例中,修正实体信息可以是指修正后的样本实体信息。修正实体信息可以是多个预设实体信息中的一个。
在一个具体的实施例中,在任一子数据对应的目标数量占比大于等于预设数量占比,且任一子数据对应的目标预测实体信息与任一子数据对应的样本实体信息不同的情况下,将任一子数据对应的目标预测实体信息,作为任一子数据对应的修正实体信息,以实现任一子数据对应的样本实体信息的修正。其中,预设数量占比可以是根据实际需要进行设定的,可选的,预设数量占比可以是55%~70%;示例性的,预设数量占比可以是60%。
在一个具体的实施例中,上述方法还可以包括:
在任一子数据对应的目标数量占比小于预设数量占比,或任一子数据对应的目标预测实体信息与任一子数据对应的样本实体信息相同的情况下,基于多次分组对应的实体类别分布信息,对任一子数据进行预测融合分析,得到任一子数据对应的融合分布信息;
基于融合分布信息中多个预设实体信息对应的预测概率,确定任一子数据的对应的样本实体信息在任一子数据对应的融合分布信息中对应的目标预测概率;
在任一子数据对应的目标预测概率小于预设概率的情况下,将预设权重信息中任一子数据对应的权重信息置零。可以理解的是,通过将预设权重信息中任一子数据对应的权重信息置零,可以使被置零的子数据的样本实体信息不参与相应的当前的损失信息的计算,即被置零的子数据的样本实体信息在相应的损失信息计算过程中,不影响该损失信息。
在一个具体的实施例中,任一子数据对应的融合分布信息可以表征任一子数据属于多个预设实体信息的概率。任一子数据对应的融合分布信息可以包括多个预设实体信息各自对应的预测概率,其中,多个预设实体信息可以包括任一子数据对应的样本实体信息。任一子数据对应的融合分布信息中任一预测概率可以是指任一子数据属于任一预设实体信息的概率。
在一个具体的实施例中,在任一子数据对应的目标数量占比小于预设数量占比,或任一子数据对应的目标预测实体信息与任一子数据对应的样本实体信息相同的情况下,通过对任一子数据对应的第二数量个实体类别分布信息进行叠加处理,得到叠加后的实体类别分布信息,再对叠加后的实体类别分布信息进行均值处理,可以得到任一子数据对应的融合分布信息。
在一个具体的实施例中,任一子数据对应的目标预测概率可以是指任一子数据的对应的样本实体信息在任一子数据对应的融合分布信息中对应的预测概率。
在一个具体的实施例中,将任一子数据对应的融合分布信息中多个预设实体信息各自对应的预测概率中,任一子数据对应的样本实体信息对应的预测概率,作为任一子数据对应的目标预测概率。
在一个具体的实施例中,在任一子数据对应的目标预测概率小于预设概率的情况下,可以将预设权重信息中任一子数据对应的权重信息设置为零,以实现预设权重信息的修正。其中,预设概率可以是根据实际应用需要进行设定的,本公开不作限定。
在一个具体的实施例中,上述方法还可以包括:
在任一子数据对应的目标预测概率大于等于预设概率的情况下,基于融合分布信息,对任一子数据进行预测分布分析,得到任一子数据对应的概率分布指标信息;
在任一子数据对应的概率分布指标信息大于预设指标信息的情况下,将预设权重信息中任一子数据对应的权重信息置零。
在一个具体的实施例中,任一子数据对应的概率分布指标信息可以表征任一子数据对应的融合分布信息中多个预测概率的分布均匀程度。
在一个具体的实施例中,任一子数据对应的概率分布指标信息可以通过以下公式得到:
其中,entropy为任一子数据对应的概率分布指标信息;PCi为任一子数据对应的融合分布信息中第i个预设实体信息对应的概率;n为多个预设实体信息的数量。
在一个具体的实施例中,在任一子数据对应的概率分布指标信息大于预设指标信息的情况下,可以将预设权重信息中任一子数据对应的权重信息设置为零,以实现预设权重信息的修正。其中,预设指标信息可以是根据实际应用需要进行设定的,本公开不作限定。可以理解的是,在任一子数据不满足修正条件的情况下,任一子数据对应的样本实体信息和预设权重信息中任一子数据对应的权重信息可以不修改。其中,上述修正条件可以包括满足任一子数据对应的目标数量占比大于等于预设数量占比,且任一子数据对应的目标预测实体信息与任一子数据对应的样本实体信息不同,或满足任一子数据对应的目标预测概率小于预设概率,或任一子数据对应的概率分布指标信息大于预设指标信息。
在上述实施例中,通过结合多次分组对应的实体类别分布信息,对预设权重信息和样本实体信息进行修正处理,得到修正权重信息和样本数据集中每一样本数据对应的子数据的修正实体信息,可以实现基于不确定性对样本数据集和对应的样本实体信息进行噪音修正,提高样本实体信息的准确度;另外,通过重复多次修正处理,可以提高噪音修正的准确性,进一步提高样本实体信息的准确度。
在步骤S209中,基于修正权重信息和修正实体信息,对待训练实体识别模型进行训练,得到目标实体识别模型。
在一个具体的实施例中,待训练实体识别模型可以是指待训练的、用于识别实体及其实体类别的模型。具体的,待训练实体识别模型可以包括第三编码层和第三分类层。可选的,待训练实体识别模型可以与预设机器学习模型可以是相同的模型,也可以是模型结构或模型参数不同的模型。可选的,待训练实体识别模型可以是预设语言表征模型或预设长短期记忆模型等模型中的一种。
在一个具体的实施例中,目标实体识别模型可以是指待生成的实体识别模型。图3是根据一示例性实施例示出的一种目标实体识别模型的模型示意图。如图3所示,目标实体识别模型可以包括目标编码层和目标分类层。具体的,可以将待识别文本信息输入至目标实体识别模型中的目标编码层进行编码处理,可以得到上述待识别文本信息对应的特征信息;再将上述待识别文本信息对应的特征信息输入至上述目标实体识别模型中的目标分类层进行分类处理,可以得到待识别文本信息中任一文本单元对应的实体信息。
在一个具体的实施例中,上述步骤S209可以包括:
将修正权重信息作为预设权重信息,将修正实体信息作为样本实体信息,重复对样本数据集进行多次分组,得到每次分组对应的第一数量个样本数据组至基于多次分组对应的实体类别分布信息,对预设权重信息和样本实体信息进行修正处理,得到修正权重信息和样本数据集中每一样本数据对应的子数据的修正实体信息的步骤,直至满足第一收敛条件;
基于样本数据集、目标修正权重信息和目标修正实体信息,对待训练实体识别模型进行训练,得到目标实体识别模型。
在一个具体的实施例中,第一收敛条件可以是指重复多次修正的收敛条件。第一收敛条件可以包括修正迭代次数大于等于第一预设迭代次数,或相邻两次修正后得到的修正实体信息或修正权重信息之间的差异信息小于预设差异信息。其中,修正迭代次数可以是指重复进行修正处理的次数。上述差异信息可以是指相邻两次修正后得到的修正实体信息或修正权重信息之间存在差异的子数据的数量,相对于样本数据集中子数据的数量的比值。预设差异信息可以是根据实际应用需要进行设定的,本公开不作限定。
在一个具体的实施例中,将修正权重信息作为预设权重信息,将修正实体信息作为样本实体信息,重复上述对样本数据集进行多次分组,得到每次分组对应的第一数量个样本数据组至上述基于多次分组对应的实体类别分布信息,对预设权重信息和样本实体信息进行修正处理,得到修正权重信息和样本数据集中每一样本数据对应的子数据的修正实体信息的步骤,直至满足第一收敛条件,相应的,可以将满足第一收敛条件时的修正权重信息作为目标修正权重信息,并将满足第一收敛条件时的修正实体信息作为目标修正实体信息。
在一个具体的实施例中,目标修正权重信息可以是指满足第一收敛条件时的修正权重信息。目标修正权重信息可以包括上述任一子数据对应的权重信息。目标修正实体信息可以是指满足第一收敛条件时的修正实体信息。目标修正实体信息可以包括上述任一子数据对应的实体信息。
在一个具体的实施例中,上述基于样本数据集、目标修正权重信息和目标修正实体信息,对待训练实体识别模型进行训练,得到目标实体识别模型,可以包括:
基于样本数据集和目标修正实体信息,确定第二当前数据集和第二当前数据集中每一样本数据对应的子数据的第二当前实体信息;
将第二当前数据集输入至待训练实体识别模型进行实体识别处理,得到第二当前数据集中每一样本数据对应的子数据的第二当前分布信息;
基于目标修正权重信息、第二当前分布信息和第二当前实体信息,确定第二损失信息;
根据第二损失信息,对待训练实体识别模型进行更新,基于更新后的待训练实体识别模型,重复基于样本数据集和目标修正实体信息,确定第二当前数据集和第二当前数据集中每一样本数据对应的子数据的第二当前实体信息至根据第二损失信息,对待训练实体识别模型进行更新的步骤,直至满足第三收敛条件;
基于满足第三收敛条件时的待训练实体识别模型,确定目标实体识别模型。
在一个具体的实施例中,第二当前数据集可以是指在多轮训练待训练实体识别模型的过程中,在当前训练轮次下训练模型的数据集。第二当前数据集可以包括样本数据集中的至少一个样本数据。
在一个具体的实施例中,第二当前实体信息可以表征第二当前数据集中每一样本数据对应的子数据各自所属的实体类别。第二当前实体信息可以包括第二当前数据集中每一样本数据对应的任一子数据对应的实体信息。
在一个具体的实施例中,可以从上述样本数据集中,选出至少一个样本数据作为第二当前数据集,再基于上述第二当前数据集中的样本数据,以及目标修正实体信息中每一样本数据对应的子数据的实体信息,可以得到第二当前实体信息。
在一个具体的实施例中,第二当前分布信息可以表征第二当前数据集中每一样本数据对应的子数据属于多个预设实体信息的概率。第二当前分布信息可以包括多个第二当前概率,其中,任一第二当前概率可以是指第二当前数据集中每一样本数据对应的任一子数据属于任一预设实体信息的概率。
在一个具体的实施例中,可以将第二当前数据集输入至待训练实体识别模型中的第三编码层进行编码处理,得到第二当前数据集对应的第二当前特征信息;再将上述第二当前特征信息输入至待训练实体识别模型中的第三分类层进行分类处理,可以得到第二当前数据集对应的第二当前分布信息。
在一个具体的实施例中,第二损失信息可以用于在多轮训练待训练实体识别模型的过程中,为当前训练轮次的模型更新提供参考。第二损失信息可以表征第二当前分布信息和第二当前实体信息之间的偏差程度。
在一个具体的实施例中,第二损失信息可以通过以下公式得到:
其中,loss2为第二损失信息;Wi_2为目标修正权重信息中第i个子数据的权重信息;Pi_label_2为第二当前实体信息中第i个子数据对应的实体信息在第二当前分布信息中第i个子数据对应的分布信息中对应的概率;n为样本数据集中的子数据的数量。
在一个具体的实施例中,第三收敛条件可以是用于待训练实体识别模型训练的收敛条件。第三收敛条件可以包括第三训练迭代次数大于等于第三预设迭代次数,或第二损失信息小于等于第二预设损失信息等。其中,第三训练迭代次数可以是指待训练实体识别模型训练过程中的迭代次数。第三预设迭代次数和第二预设损失信息可以根据实际应用需要进行设定,本公开不作限定。
在一个具体的实施例中,基于第二损失信息,可以对上述待训练实体识别模型中的模型参数进行更新,可以得到更新后的待训练实体识别模型,基于更新后的待训练实体识别模型,重复上述基于样本数据集和目标修正实体信息,确定第二当前数据集和第二当前数据集中每一样本数据对应的子数据的第二当前实体信息至上述根据第二损失信息,对待训练实体识别模型进行更新的步骤,直至满足第三收敛条件。具体的,可以基于第二损失信息,确定更新梯度,并基于该更新梯度,对待训练实体识别模型中的模型参数进行更新;其中,可以基于梯度下降的方式,对待训练实体识别模型进行训练优化。
在一个具体的实施例中,可以将达到第三收敛条件时得到的待训练实体识别模型,作为目标实体识别模型。
在上述实施例中,通过获取样本数据集和样本数据集中每一样本数据对应的子数据的样本实体信息,对样本数据集进行多次分组,得到每次分组对应的第一数量个样本数据组,可以保证每次分组对应的第一数量个样本数据组中样本数据的随机性,进而可以提高模型训练效率,再将每次分组对应的第一样本数据组输入第一样本数据组对应的预设实体识别模型中进行实体识别处理,得到第一样本数据组中任一样本数据对应的子数据的实体类别分布信息,其中,预设实体识别模型为基于第二样本数据组对预设机器学习模型训练得到的,第一样本数据组为每次分组对应的第一数量个样本数据组中任一样本数据组,第二样本数据组为每次分组对应的第一数量个样本数据组中除第一样本数据组之外的样本数据组,可以避免上述实体类别分布信息过拟合,进而可以提高修正处理的准确度,再结合多次分组对应的实体类别分布信息,对预设权重信息和样本实体信息进行修正处理,得到修正权重信息和样本数据集中每一样本数据对应的子数据的修正实体信息,可以实现基于不确定性对样本数据集和对应的样本实体信息进行噪音修正,提高样本实体信息的准确度,接着,结合修正权重信息和修正实体信息,对待训练实体识别模型进行训练,得到目标实体识别模型,可以提高目标实体识别模型的实体识别处理的准确度。
基于上述的实体识别模型的生成方法得到的目标实体识别模型,本公开还提供了一种实体识别方法,该实体识别方法可以用于终端、服务器等电子设备中,可以包括以下步骤:
获取待识别文本信息;
将待识别文本信息输入至基于上述实体识别模型的生成方法得到的目标实体识别模型进行实体识别处理,得到实体识别结果。
图4是根据一示例性实施例示出的一种实体识别模型的生成装置的框图。如图4所示,该装置可以包括:
数据获取模块410,可以用于获取样本数据集和样本数据集中每一样本数据对应的子数据的样本实体信息;
分组模块420,可以用于对样本数据集进行多次分组,得到每次分组对应的第一数量个样本数据组;
第一实体识别处理模块430,可以用于将每次分组对应的第一样本数据组输入第一样本数据组对应的预设实体识别模型中进行实体识别处理,得到第一样本数据组中任一样本数据对应的子数据的实体类别分布信息;预设实体识别模型为基于第二样本数据组对预设机器学习模型训练得到的,第一样本数据组为每次分组对应的第一数量个样本数据组中任一样本数据组,第二样本数据组为每次分组对应的第一数量个样本数据组中除第一样本数据组之外的样本数据组;
修正处理模块440,可以用于基于多次分组对应的实体类别分布信息,对预设权重信息和样本实体信息进行修正处理,得到修正权重信息和样本数据集中每一样本数据对应的子数据的修正实体信息;预设权重信息表征样本数据集中每一样本数据对应的子数据在每一样本数据中的重要程度;
第一模型训练模块450,可以用于基于修正权重信息和修正实体信息,对待训练实体识别模型进行训练,得到目标实体识别模型。
在一个具体的实施例中,上述第一模型训练模块450可以包括:
第一执行模块,可以用于将修正权重信息作为预设权重信息,将修正实体信息作为样本实体信息,重复对样本数据集进行多次分组,得到每次分组对应的第一数量个样本数据组至基于多次分组对应的实体类别分布信息,对预设权重信息和样本实体信息进行修正处理,得到修正权重信息和样本数据集中每一样本数据对应的子数据的修正实体信息的步骤,直至满足第一收敛条件;
第二模型训练模块,可以用于基于样本数据集、目标修正权重信息和目标修正实体信息,对待训练实体识别模型进行训练,得到目标实体识别模型;目标修正权重信息为满足第一收敛条件时的修正权重信息,目标修正实体信息为满足第一收敛条件时的修正实体信息。
在一个具体的实施例中,上述装置还可以包括:
第一数据确定模块,可以用于基于第二样本数据组和第二样本数据组中每一样本数据对应的子数据的样本实体信息,确定第一当前数据集和第一当前数据集中每一样本数据对应的子数据的第一当前实体信息;
第二实体识别处理模块,可以用于将第一当前数据集输入至预设机器学习模型进行实体识别处理,得到第一当前数据集中每一样本数据对应的子数据的第一当前分布信息;第一当前分布信息表征第一当前数据集中每一样本数据对应的子数据属于多个预设实体信息的概率;
第一损失确定模块,可以用于基于预设权重信息、第一当前分布信息和第一当前实体信息,确定第一损失信息;
第二执行模块,可以用于根据第一损失信息,对预设机器学习模型进行更新,基于更新后的预设机器学习模型,重复基于第二样本数据组和第二样本数据组中每一样本数据对应的子数据的样本实体信息,确定第一当前数据集和第一当前数据集中每一样本数据对应的子数据的第一当前实体信息至根据第一损失信息,对预设机器学习模型进行更新的步骤,直至满足第二收敛条件;
预设实体识别模型确定模块,可以用于基于满足第二收敛条件时的预设机器学习模型,确定预设实体识别模型。
在一个具体的实施例中,上述装置还可以包括:
关联样本数据删除模块,可以用于将第二样本数据组中第一样本数据组对应的关联样本数据删除,得到删除后的第二样本数据组,关联样本数据为第二样本数据组中存在与第一样本数据组对应的至少一个实体分词相同的实体分词的样本数据;
相应的,上述第一数据确定模块可以包括:
第二数据确定模块,可以用于基于删除后的第二样本数据组和删除后的第二样本数据组中每一样本数据对应的子数据的样本实体信息,确定第一当前数据集和第一当前实体信息。
在一个具体的实施例中,上述第二模型训练模块可以包括:
第三数据确定模块,可以用于基于样本数据集和目标修正实体信息,确定第二当前数据集和第二当前数据集中每一样本数据对应的子数据的第二当前实体信息;
第三实体识别处理模块,可以用于将第二当前数据集输入至待训练实体识别模型进行实体识别处理,得到第二当前数据集中每一样本数据对应的子数据的第二当前分布信息;第二当前分布信息表征第二当前数据集中每一样本数据对应的子数据属于多个预设实体信息的概率;
第二损失确定模块,可以用于基于目标修正权重信息、第二当前分布信息和第二当前实体信息,确定第二损失信息;
第三执行模块,可以用于根据第二损失信息,对待训练实体识别模型进行更新,基于更新后的待训练实体识别模型,重复基于样本数据集和目标修正实体信息,确定第二当前数据集和第二当前数据集中每一样本数据对应的子数据的第二当前实体信息至根据第二损失信息,对待训练实体识别模型进行更新的步骤,直至满足第三收敛条件;
目标实体识别模型确定模块,可以用于基于满足第三收敛条件时的待训练实体识别模型,确定目标实体识别模型。
在一个具体的实施例中,上述修正处理模块440可以包括:
实体类别预测模块,可以用于基于多次分组对应的实体类别分布信息,对样本数据集中每一样本数据的任一子数据进行实体类别预测,得到任一子数据对应的第二数量个预测实体信息;第二数量与分组次数相同;
第三数量确定模块,可以用于确定第二数量个预测实体信息中每种预测实体信息对应的第三数量;
目标预测实体信息获取模块,可以用于将任一子数据对应的第三数量最大的预测实体信息,作为任一子数据对应的目标预测实体信息;
目标数量占比确定模块,可以用于基于任一子数据对应的目标预测实体信息对应的第三数量和第二数量,确定任一子数据对应的目标数量占比;目标数量占比为任一子数据对应的目标预测实体信息对应的第三数量相对于第二数量的占比;
实体信息更新模块,可以用于在任一子数据对应的目标数量占比大于等于预设数量占比,且任一子数据对应的目标预测实体信息与任一子数据对应的样本实体信息不同的情况下,将任一子数据对应的目标预测实体信息,作为任一子数据对应的修正实体信息。
在一个具体的实施例中,上述装置还可以包括:
预测融合分析模块,可以用于在任一子数据对应的目标数量占比小于预设数量占比,或任一子数据对应的目标预测实体信息与任一子数据对应的样本实体信息相同的情况下,基于多次分组对应的实体类别分布信息,对任一子数据进行预测融合分析,得到任一子数据对应的融合分布信息;融合分布信息表征任一子数据属于多个预设实体信息的概率;多个预设实体信息包括任一子数据对应的样本实体信息;
目标预测概率确定模块,可以用于基于融合分布信息中多个预设实体信息对应的预测概率,确定任一子数据的对应的样本实体信息在任一子数据对应的融合分布信息中对应的目标预测概率;
第一权重更新模块,可以用于在任一子数据对应的目标预测概率小于预设概率的情况下,将预设权重信息中任一子数据对应的权重信息置零。
在一个具体的实施例中,上述装置还可以包括:
预测分布分析模块,可以用于在任一子数据对应的目标预测概率大于等于预设概率的情况下,基于融合分布信息,对任一子数据进行预测分布分析,得到任一子数据对应的概率分布指标信息;概率分布指标信息表征融合分布信息中多个预测概率的分布均匀程度;
第二权重更新模块,可以用于在任一子数据对应的概率分布指标信息大于预设指标信息的情况下,将预设权重信息中任一子数据对应的权重信息置零。
本公开实施例还提供一种实体识别装置,可以包括:
文本信息获取模块,可以用于获取待识别文本信息;
实体识别结果获取模块,可以用于将待识别文本信息输入至基于上述实体识别模型的生成方法得到的目标实体识别模型进行实体识别处理,得到实体识别结果。
关于上述实施例中的装置,其中各个模块和单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种用于生成目标实体识别模型或用于实体识别处理的电子设备的框图,该电子设备可以是服务器,其内部结构图可以如图5所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种实体识别模型的生成方法或实体识别方法。
图6是根据一示例性实施例示出的另一种用于生成目标实体识别模型或用于实体识别处理的电子设备的框图,该电子设备可以是终端,其内部结构图可以如图6所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种实体识别模型的生成方法或实体识别方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5或图6中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在示例性实施例中,还提供了一种电子设备,包括:处理器;用于存储该处理器可执行指令的存储器;其中,该处理器被配置为执行该指令,以实现如本公开实施例中的实体识别模型的生成方法或实体识别方法。
在示例性实施例中,还提供了一种计算机可读存储介质,当该存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行本公开实施例中的实体识别模型的生成方法或实体识别方法。
在示例性实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行本公开实施例中的实体识别模型的生成方法或实体识别方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
可以理解的是,在本申请的具体实施方式中,涉及到用户信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (13)

1.一种实体识别模型的生成方法,其特征在于,所述方法包括:
获取样本数据集和所述样本数据集中每一样本数据对应的子数据的样本实体信息;
对所述样本数据集进行多次分组,得到每次分组对应的第一数量个样本数据组;
将所述每次分组对应的第一样本数据组输入所述第一样本数据组对应的预设实体识别模型中进行实体识别处理,得到所述第一样本数据组中任一样本数据对应的子数据的实体类别分布信息;所述预设实体识别模型为基于第二样本数据组对预设机器学习模型训练得到的,所述第一样本数据组为所述每次分组对应的第一数量个样本数据组中任一样本数据组,所述第二样本数据组为所述每次分组对应的第一数量个样本数据组中除所述第一样本数据组之外的样本数据组;
基于多次分组对应的所述实体类别分布信息,对预设权重信息和所述样本实体信息进行修正处理,得到修正权重信息和所述样本数据集中每一样本数据对应的子数据的修正实体信息;所述预设权重信息表征所述样本数据集中每一样本数据对应的子数据在所述每一样本数据中的重要程度;
基于所述修正权重信息和所述修正实体信息,对待训练实体识别模型进行训练,得到目标实体识别模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述修正权重信息和所述修正实体信息,对待训练实体识别模型进行训练,得到目标实体识别模型,包括:
将所述修正权重信息作为所述预设权重信息,将所述修正实体信息作为所述样本实体信息,重复所述对所述样本数据集进行多次分组,得到每次分组对应的第一数量个样本数据组至所述基于多次分组对应的所述实体类别分布信息,对预设权重信息和所述样本实体信息进行修正处理,得到修正权重信息和所述样本数据集中每一样本数据对应的子数据的修正实体信息的步骤,直至满足第一收敛条件;
基于所述样本数据集、目标修正权重信息和目标修正实体信息,对所述待训练实体识别模型进行训练,得到所述目标实体识别模型;所述目标修正权重信息为满足所述第一收敛条件时的修正权重信息,所述目标修正实体信息为满足所述第一收敛条件时的修正实体信息。
3.根据权利要求2所述的方法,其特征在于,所述将所述每次分组对应的第一样本数据组输入所述第一样本数据组对应的预设实体识别模型中进行实体识别处理,得到所述第一样本数据组中任一样本数据对应的子数据的实体类别分布信息之前,所述方法还包括:
基于所述第二样本数据组和所述第二样本数据组中每一样本数据对应的子数据的样本实体信息,确定第一当前数据集和所述第一当前数据集中每一样本数据对应的子数据的第一当前实体信息;
将所述第一当前数据集输入至所述预设机器学习模型进行实体识别处理,得到所述第一当前数据集中每一样本数据对应的子数据的第一当前分布信息;所述第一当前分布信息表征所述第一当前数据集中每一样本数据对应的子数据属于多个预设实体信息的概率;
基于所述预设权重信息、所述第一当前分布信息和所述第一当前实体信息,确定第一损失信息;
根据所述第一损失信息,对所述预设机器学习模型进行更新,基于更新后的预设机器学习模型,重复所述基于所述第二样本数据组和所述第二样本数据组中每一样本数据对应的子数据的样本实体信息,确定第一当前数据集和所述第一当前数据集中每一样本数据对应的子数据的第一当前实体信息至所述根据所述第一损失信息,对所述预设机器学习模型进行更新的步骤,直至满足第二收敛条件;
基于满足所述第二收敛条件时的预设机器学习模型,确定所述预设实体识别模型。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第二样本数据组和所述第二样本数据组中每一样本数据对应的子数据的样本实体信息,确定第一当前数据集和所述第一当前数据集中每一样本数据对应的子数据的第一当前实体信息之前,所述方法还包括:
将所述第二样本数据组中所述第一样本数据组对应的关联样本数据删除,得到删除后的第二样本数据组,所述关联样本数据为所述第二样本数据组中存在与所述第一样本数据组对应的至少一个实体分词相同的实体分词的样本数据;
所述基于所述第二样本数据组和所述第二样本数据组中每一样本数据对应的子数据的样本实体信息,确定第一当前数据集和所述第一当前数据集中每一样本数据对应的子数据的第一当前实体信息,包括:
基于所述删除后的第二样本数据组和所述删除后的第二样本数据组中每一样本数据对应的子数据的样本实体信息,确定所述第一当前数据集和所述第一当前实体信息。
5.根据权利要求2所述的方法,其特征在于,所述基于所述样本数据集、目标修正权重信息和目标修正实体信息,对所述待训练实体识别模型进行训练,得到所述目标实体识别模型,包括:
基于所述样本数据集和所述目标修正实体信息,确定第二当前数据集和所述第二当前数据集中每一样本数据对应的子数据的第二当前实体信息;
将所述第二当前数据集输入至所述待训练实体识别模型进行实体识别处理,得到所述第二当前数据集中每一样本数据对应的子数据的第二当前分布信息;所述第二当前分布信息表征所述第二当前数据集中每一样本数据对应的子数据属于多个预设实体信息的概率;
基于所述目标修正权重信息、所述第二当前分布信息和所述第二当前实体信息,确定第二损失信息;
根据所述第二损失信息,对所述待训练实体识别模型进行更新,基于更新后的待训练实体识别模型,重复所述基于所述样本数据集和所述目标修正实体信息,确定第二当前数据集和所述第二当前数据集中每一样本数据对应的子数据的第二当前实体信息至所述根据所述第二损失信息,对所述待训练实体识别模型进行更新的步骤,直至满足第三收敛条件;
基于满足所述第三收敛条件时的待训练实体识别模型,确定所述目标实体识别模型。
6.根据权利要求1-5任一所述的方法,其特征在于,所述基于多次分组对应的所述实体类别分布信息,对预设权重信息和所述样本实体信息进行修正处理,得到修正权重信息和所述样本数据集中每一样本数据对应的子数据的修正实体信息,包括:
基于多次分组对应的所述实体类别分布信息,对所述样本数据集中每一样本数据的任一子数据进行实体类别预测,得到所述任一子数据对应的第二数量个预测实体信息;所述第二数量与分组次数相同;
确定所述第二数量个预测实体信息中每种预测实体信息对应的第三数量;
将所述任一子数据对应的第三数量最大的预测实体信息,作为所述任一子数据对应的目标预测实体信息;
基于所述任一子数据对应的目标预测实体信息对应的第三数量和所述第二数量,确定所述任一子数据对应的目标数量占比;所述目标数量占比为所述任一子数据对应的目标预测实体信息对应的第三数量相对于所述第二数量的占比;
在所述任一子数据对应的目标数量占比大于等于预设数量占比,且所述任一子数据对应的目标预测实体信息与所述任一子数据对应的样本实体信息不同的情况下,将所述任一子数据对应的目标预测实体信息,作为所述任一子数据对应的修正实体信息。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
在所述任一子数据对应的目标数量占比小于所述预设数量占比,或所述任一子数据对应的目标预测实体信息与所述任一子数据对应的样本实体信息相同的情况下,基于多次分组对应的所述实体类别分布信息,对所述任一子数据进行预测融合分析,得到所述任一子数据对应的融合分布信息;所述融合分布信息表征所述任一子数据属于多个预设实体信息的概率;所述多个预设实体信息包括所述任一子数据对应的样本实体信息;
基于所述融合分布信息中多个预设实体信息对应的预测概率,确定所述任一子数据的对应的样本实体信息在所述任一子数据对应的融合分布信息中对应的目标预测概率;
在所述任一子数据对应的目标预测概率小于预设概率的情况下,将所述预设权重信息中所述任一子数据对应的权重信息置零。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
在所述任一子数据对应的目标预测概率大于等于所述预设概率的情况下,基于所述融合分布信息,对所述任一子数据进行预测分布分析,得到所述任一子数据对应的概率分布指标信息;所述概率分布指标信息表征所述融合分布信息中多个预测概率的分布均匀程度;
在所述任一子数据对应的概率分布指标信息大于预设指标信息的情况下,将所述预设权重信息中所述任一子数据对应的权重信息置零。
9.一种实体识别方法,其特征在于,所述方法包括:
获取待识别文本信息;
将所述待识别文本信息输入至目标实体识别模型进行实体识别处理,得到实体识别结果;
其中,所述目标实体识别模型为基于权利要求1-8任一所述的实体识别模型的生成方法得到的。
10.一种实体识别模型的生成装置,其特征在于,所述装置包括:
数据获取模块,用于获取样本数据集和所述样本数据集中每一样本数据对应的子数据的样本实体信息;
分组模块,用于对所述样本数据集进行多次分组,得到每次分组对应的第一数量个样本数据组;
第一实体识别处理模块,用于将所述每次分组对应的第一样本数据组输入所述第一样本数据组对应的预设实体识别模型中进行实体识别处理,得到所述第一样本数据组中任一样本数据对应的子数据的实体类别分布信息;所述预设实体识别模型为基于第二样本数据组对预设机器学习模型训练得到的,所述第一样本数据组为所述每次分组对应的第一数量个样本数据组中任一样本数据组,所述第二样本数据组为所述每次分组对应的第一数量个样本数据组中除所述第一样本数据组之外的样本数据组;
修正处理模块,用于基于多次分组对应的所述实体类别分布信息,对预设权重信息和所述样本实体信息进行修正处理,得到修正权重信息和所述样本数据集中每一样本数据对应的子数据的修正实体信息;所述预设权重信息表征所述样本数据集中每一样本数据对应的子数据在所述每一样本数据中的重要程度;
第一模型训练模块,用于基于所述修正权重信息和所述修正实体信息,对待训练实体识别模型进行训练,得到目标实体识别模型。
11.一种实体识别装置,其特征在于,所述装置包括:
文本信息获取模块,用于获取待识别文本信息;
实体识别结果获取模块,用于将所述待识别文本信息输入至目标实体识别模型进行实体识别处理,得到实体识别结果;其中,所述目标实体识别模型为基于权利要求1-8任一所述的实体识别模型的生成方法得到的。
12.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令以实现权利要求1至8中任意一项所述的实体识别模型的生成方法或权利要求9所述的实体识别方法。
13.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至8中任意一项所述的实体识别模型的生成方法或权利要求9所述的实体识别方法。
CN202211532563.6A 2022-12-01 2022-12-01 实体识别模型的生成方法及实体识别方法 Pending CN116956911A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211532563.6A CN116956911A (zh) 2022-12-01 2022-12-01 实体识别模型的生成方法及实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211532563.6A CN116956911A (zh) 2022-12-01 2022-12-01 实体识别模型的生成方法及实体识别方法

Publications (1)

Publication Number Publication Date
CN116956911A true CN116956911A (zh) 2023-10-27

Family

ID=88441596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211532563.6A Pending CN116956911A (zh) 2022-12-01 2022-12-01 实体识别模型的生成方法及实体识别方法

Country Status (1)

Country Link
CN (1) CN116956911A (zh)

Similar Documents

Publication Publication Date Title
CN110147551B (zh) 多类别实体识别模型训练、实体识别方法、服务器及终端
CN110569322A (zh) 地址信息解析方法、装置、系统及数据获取方法
CN112016318B (zh) 基于解释模型的分诊信息推荐方法、装置、设备及介质
WO2022105118A1 (zh) 基于图像的健康状态识别方法、装置、设备及存储介质
CN112149400A (zh) 一种数据处理方法、装置、设备及存储介质
CN112328909B (zh) 信息推荐方法、装置、计算机设备及介质
CN113901327A (zh) 一种目标推荐模型训练方法、推荐方法、装置及电子设备
CN110321426B (zh) 摘要抽取方法、装置及计算机设备
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN108831561A (zh) 流感预测模型的生成方法、装置及计算机可读存储介质
CN113886550A (zh) 基于注意力机制的问答匹配方法、装置、设备及存储介质
CN115409111A (zh) 命名实体识别模型的训练方法和命名实体识别方法
CN112580346A (zh) 事件抽取方法、装置、计算机设备和存储介质
CN112131261A (zh) 基于社区网络的社区查询方法、装置和计算机设备
CN113761375A (zh) 基于神经网络的消息推荐方法、装置、设备及存储介质
CN111723870A (zh) 基于人工智能的数据集获取方法、装置、设备和介质
CN113610215B (zh) 任务处理网络生成、任务处理方法、装置及电子设备
CN113722437B (zh) 基于人工智能的用户标签识别方法、装置、设备及介质
CN113947185B (zh) 任务处理网络生成、任务处理方法、装置、电子设备及存储介质
CN116956911A (zh) 实体识别模型的生成方法及实体识别方法
CN113935554B (zh) 投放系统中的模型训练方法、资源投放方法及装置
CN113298160B (zh) 三元组的校验方法、装置、设备和介质
CN114638229A (zh) 笔录数据的实体识别方法、装置、介质及设备
CN116956909A (zh) 类别识别模型的生成方法及类别识别方法
CN117746995B (zh) 基于单细胞rna测序数据的细胞类型识别方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication