CN114626380A - 实体识别的方法和装置、电子设备和存储介质 - Google Patents

实体识别的方法和装置、电子设备和存储介质 Download PDF

Info

Publication number
CN114626380A
CN114626380A CN202210307561.0A CN202210307561A CN114626380A CN 114626380 A CN114626380 A CN 114626380A CN 202210307561 A CN202210307561 A CN 202210307561A CN 114626380 A CN114626380 A CN 114626380A
Authority
CN
China
Prior art keywords
model
target
text data
training
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210307561.0A
Other languages
English (en)
Inventor
李犇
张�杰
于皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Minglue Zhaohui Technology Co Ltd
Original Assignee
Beijing Minglue Zhaohui Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Minglue Zhaohui Technology Co Ltd filed Critical Beijing Minglue Zhaohui Technology Co Ltd
Priority to CN202210307561.0A priority Critical patent/CN114626380A/zh
Publication of CN114626380A publication Critical patent/CN114626380A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种实体识别的方法和装置、电子设备和存储介质,其中,该方法包括:获取待识别的目标文本数据;将目标文本数据输入目标模型内,得到目标文本数据属于的目标实体类别,其中,目标模型用于得到文本数据的标注信息,并根据标注信息识别出目标实体类别,目标模型是通过对第三模型进行第三模型参数调整后,得到的最终模型,第三模型为沿用第二模型内的第二模型参数,对训练集进行预训练的模型,第二模型为对第一模型进行预设次数的迭代训练后得到的模型,预设次数是利用第四模型对训练集进行处理得到的。通过本申请,解决了相关技术中存在的人工标注的成本高、时效低、数据漏标和标错的问题。

Description

实体识别的方法和装置、电子设备和存储介质
技术领域
本申请涉及数据处理领域,尤其涉及一种实体识别的方法和装置、电子设备和存储介质。
背景技术
命名实体识别(Named Entity Recognition,NER)是从文本中检测出真实实体并将其分类为预定类型(例如:地点、人、物、组织)的任务。它是知识抽取中的核心任务,对于各种下游应用,例如搜索引擎、问答系统和对话系统等应用来说都是很重要的一个基础任务。
传统的NER方法主要训练序列标注模型,例如基于手动设计特征的隐马尔可夫模型和条件随机场。随着深度神经网络的发展,深度学习模型能够利用深度神经网络自动提取有效的特征,减轻设计手动设计特征的负担,因此针对NER任务的深度学习模型也被提出并表现出很强的性能。但是,大多数深度学习方法依赖于大量标注的训练数据,由于NER任务需要字符(token)级别的标签,在基于序列标注的NER模型中,一个token往往只能被标注为一种实体,无法解决实体嵌套的情况;采用深度学习的NER中,往往需要大量的标注数据,这对于一些缺乏大量标注数据的领域NER任务来说,面临的是人工标注的高成本、低时效和引入认为错误的困境;一些采用远程监督方式的NER模型,利用已有的知识库或者领域词典进行数据标注,会因为知识库覆盖范围有限,造成数据的漏标。
因此,相关技术中存在人工标注的成本高、时效低、数据漏标和标错的问题。
发明内容
本申请提供了一种实体识别的方法和装置、电子设备和存储介质,以至少解决相关技术中存在人工标注的成本高、时效低、数据漏标和标错的问题。
根据本申请实施例的一个方面,提供了一种实体识别的方法,该方法包括:
获取待识别的目标文本数据;
将所述目标文本数据输入目标模型内,得到所述目标文本数据属于的目标实体类别,其中,所述目标模型用于得到所述文本数据的标注信息,并根据所述标注信息识别出所述目标实体类别,所述目标模型是通过对第三模型进行第三模型参数调整后,得到的最终模型,所述第三模型为沿用第二模型内的第二模型参数,对训练集进行预训练的模型,所述第二模型为对第一模型进行预设次数的迭代训练后得到的模型,所述预设次数是利用第四模型对所述训练集进行处理得到的。
根据本申请实施例的另一个方面,还提供了一种实体识别的装置,该装置包括:
第一获取单元,用于获取待识别的目标文本数据;
第一输入单元,用于将所述目标文本数据输入目标模型内,得到所述目标文本数据属于的目标实体类别,其中,所述目标模型用于得到所述文本数据的标注信息,并根据所述标注信息识别出所述目标实体类别,所述目标模型是通过对第三模型进行第三模型参数调整后,得到的最终模型,所述第三模型为沿用第二模型内的第二模型参数,对训练集进行预训练的模型,所述第二模型为对第一模型进行预设次数的迭代训练后得到的模型,所述预设次数是利用第四模型对所述训练集进行处理得到的。
可选地,该装置还包括:
第二获取单元,用于在所述获取待识别的目标文本数据之前,获取训练文本数据;
拼接单元,用于按照预设方案对所述训练文本数据内的字符进行片段式拼接,生成多个片段序列;
匹配单元,用于将所述片段序列内的每个字符与预设实体名称进行文本匹配,确定出所述训练文本数据属于的实体类型;
设置单元,用于将所述训练文本数据与所述实体类型作为所述训练集。
可选地,拼接单元包括:
划分模块,用于将所述训练文本数据按照单字符形式进行划分,并对划分后的每个字符进行字符标注;
拼接模块,用于对所述字符标注进行片段式拼接,生成多个所述片段序列。
可选地,拼接模块包括:
确定子单元,用于确定出预设窗口长度,其中,所述预设窗口长度为每个所述片段序列内所允许包含的字符总数的最大值;
拼接子单元,用于在所述预设窗口长度的范围内,将每个片段中包含的头字符和尾字符进行拼接,得到多个所述片段序列,其中,每个所述片段包含至少一个字符。
可选地,该装置还包括:
第二输入单元,用于在所述将所述训练文本数据与所述实体类型作为所述训练集之后,根据所述训练文本数据和所述第一模型,生成每个所述片段序列对应的多个隐向量;
第三输入单元,用于将多个所述隐向量输入所述第一模型的前馈神经网络,得到每个所述隐向量属于所述实体类型的第一概率数值;
第一调整单元,用于根据所述第一概率数值,经过所述预设次数的跌代,调整所述第一模型的第一模型参数,得到所述第二模型;
第二调整单元,用于基于所述第二模型和多个所述片段序列,调整所述第三模型的第三模型参数,得到所述目标模型。
可选地,第二调整单元包括:
初始化模块,用于利用所述第二模型的第二模型参数初始化所述第三模型,其中,当前所述第三模型内的第三模型参数等于所述第二模型参数;
输入模块,用于将多个所述隐向量输入所述第三模型中,得到每个所述片段序列属于所述实体类型的参考概率数值;
第一调整模块,用于利用均方差损失函数训练所述第三模型,调整所述第三模型的所述第三模型参数,直到所述参考概率数值大于或者等于预设阈值,得到所述目标模型,其中,所述预设阈值为停止调整所述第三模型参数的最小值。
可选地,第一调整模块包括:
第一输入子单元,用于将多个所述隐向量输入所述第三模型的第一子模型中,得到第二概率数值;
训练子单元,用于基于所述第二概率数值,利用所述均方差损失函数训练所述第三模型的第二子模型,直到完成所述预设次数的迭代,得到训练后的第二子模型的第二子模型参数;
更新子单元,用于利用所述第二子模型参数更新所述第一子模型中的第一子模型参数,得到更新后的第一子模型;
第二输入子单元,用于将多个所述隐向量输入更新后的第一子模型,得到第三概率数值;
第二调整模块,用于基于所述第三概率数值,调整所述第二子模型参数,直到所述第二子模型输出的所述参考概率数值大于或者等于所述预设阈值,停止调整所述第二子模型参数,得到所述目标模型。
根据本申请实施例的又一个方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;其中,存储器,用于存储计算机程序;处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行上述任一实施例中的方法步骤。
根据本申请实施例的又一个方面,还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一实施例中的方法步骤。
本申请实施例在知识图谱技术领域进行图谱构建,在本申请实施例中,通过获取待识别的目标文本数据;将目标文本数据输入目标模型内,得到目标文本数据属于的目标实体类别,其中,目标模型用于得到文本数据的标注信息,并根据标注信息识别出目标实体类别,目标模型是通过对第三模型进行第三模型参数调整后,得到的最终模型,第三模型为沿用第二模型内的第二模型参数,对训练集进行预训练的模型,第二模型为对第一模型进行预设次数的迭代训练后得到的模型,预设次数是利用第四模型对训练集进行处理得到的。由于本申请实施例将得到训练好的目标模型作为处理待识别的目标文本数据所属实体类别的最终模型,实现了自动化识别的效果,节省了人力,提高了识别效率,且目标模型是经过第一模型、第二模型、第三模型以及第四模型自学习的方式不断训练调参完成的,在识别实体类别时更加精准,解决了数据漏标和标错的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种可选的实体识别的方法的硬件环境的示意图;
图2是根据本申请实施例的一种可选的实体识别的方法的流程示意图;
图3是根据本发明实施例的一种可选的领域BERT_NER模型结构示意图;
图4是根据本申请实施例的一种可选的实体识别的方法的整体训练流程示意图;
图5是根据本申请实施例的一种可选的实体识别的装置的结构框图;
图6是根据本申请实施例的一种可选的电子设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例的一个方面,提供了一种实体识别的方法。可选地,在本实施例中,上述实体识别的方法可以应用于如图1所示的硬件环境中。如图1所示,终端102中可以包含有存储器104、处理器106和显示器108(可选部件)。终端102可以通过网络110与服务器112进行通信连接,该服务器112可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器112上或独立于服务器112设置数据库114,用于为服务器112提供数据存储服务。此外,服务器112中可以运行有处理引擎116,该处理引擎116可以用于执行由服务器112所执行的步骤。
可选地,终端102可以但不限于为可以计算数据的终端,如移动终端(例如手机、平板电脑)、笔记本电脑、PC(Personal Computer,个人计算机)机等终端上,上述网络可以包括但不限于无线网络或有线网络。其中,该无线网络包括:蓝牙、WIFI(Wireless Fidelity,无线保真)及其他实现无线通信的网络。上述有线网络可以包括但不限于:广域网、城域网、局域网。上述服务器112可以包括但不限于任何可以进行计算的硬件设备。
此外,在本实施例中,上述实体识别的方法还可以但不限于应用于处理能力较强大的独立的处理设备中,而无需进行数据交互。例如,该处理设备可以但不限于为处理能力较强大的终端设备,即,上述实体识别的方法中的各个操作可以集成在一个独立的处理设备中。上述仅是一种示例,本实施例中对此不作任何限定。
可选地,在本实施例中,上述实体识别的方法可以由服务器112来执行,也可以由终端102来执行,还可以是由服务器112和终端102共同执行。其中,终端102执行本申请实施例的实体识别的方法也可以是由安装在其上的客户端来执行。
以运行在服务器为例,图2是根据本申请实施例的一种可选的实体识别的方法的流程示意图,如图2所示,该方法的流程可以包括以下步骤:
步骤S201,获取待识别的目标文本数据;
步骤S202,将目标文本数据输入目标模型内,得到目标文本数据属于的目标实体类别,其中,目标模型用于得到文本数据的标注信息,并根据标注信息识别出目标实体类别,目标模型是通过对第三模型进行第三模型参数调整后,得到的最终模型,第三模型为沿用第二模型内的第二模型参数,对训练集进行预训练的模型,第二模型为对第一模型进行预设次数的迭代训练后得到的模型,预设次数是利用第四模型对训练集进行处理得到的。
可选地,在本申请实施例中,服务器将会获取到本次待识别的目标文本数据,然后将该目标文本数据输入到本申请实施例的目标模型内,目标模型输出该目标文本数据所属的目标实体类别。需要知道的是,实体往往指某类事物的集合,把每一类数据对象的个体称为实体。所以在本申请实施例中可以包含的实体类型为:品牌、产品等。
另外,在本申请实施例中除了目标模型外,还包含了多个其他模型,分别是:第一模型(可以是BERT_NER模型)、第二模型(可以是迭代多次后的BERT_NER模型)、第三模型(可以是自学习的teacher-student模型)、第四模型(可以是早停法(early_stop)模型),多个模型之间的关系为:目标模型是通过对第三模型进行第三模型参数的调整后所确定出的最终模型,而第三模型又与第二模型相关联,其第三模型的第三模型参数与第二模型的第二模型参数相同,也就是第三模型为沿用第二模型内的第二模型参数,对训练集进行预训练的模型,然后第一模型为BERT构建一个初始领域BERT_NER模型,该领域可以是化妆品领域等,利用BERT_NER模型去识别需要标注的数据所属的化妆品领域中的哪一实体类别,然后第二模型为对第一模型进行多次迭代训练后所生成的模型。
需要说明的是,上述多次迭代训练中,确定“多次”的具体数值时可以利用第四模型对训练集进行处理,得到的训练迭代次数,比如得到的迭代次数为预设次数:5次等。
在本申请实施例中,通过获取待识别的目标文本数据;将目标文本数据输入目标模型内,得到目标文本数据属于的目标实体类别,其中,目标模型用于得到文本数据的标注信息,并根据标注信息识别出目标实体类别,目标模型是通过对第三模型进行第三模型参数调整后,得到的最终模型,第三模型为沿用第二模型内的第二模型参数,对训练集进行预训练的模型,第二模型为对第一模型进行预设次数的迭代训练后得到的模型,预设次数是利用第四模型对训练集进行处理得到的。由于本申请实施例将得到训练好的目标模型作为处理待识别的目标文本数据所属实体类别的最终模型,实现了自动化识别的效果,节省了人力,提高了识别效率,且目标模型是经过第一模型、第二模型、第三模型以及第四模型自学习的方式不断训练调参完成的,在识别实体类别时更加精准,解决了数据漏标和标错的问题。
作为一种可选实施例,在获取待识别的目标文本数据之前,方法还包括:
获取训练文本数据;
按照预设方案对训练文本数据内的字符进行片段式拼接,生成多个片段序列;
将片段序列内的每个字符与预设实体名称进行文本匹配,确定出训练文本数据属于的实体类型;
将训练文本数据与实体类型作为训练集。
可选地,在本申请实施例中,需要预先生成训练集去训练模型。首先获取到训练文本数据,这些训练文本数据可以是基于多源知识库的领域数据,然后对该训练文本数据内的字符进行片段式拼接,比如将训练文本数据按照单字符形式进行划分,并对划分后的每个字符进行字符标注,例如:训练文本数据:欧莱雅保湿眼霜,字符标注:[[欧],[莱],[雅],[保],[湿],[眼],[霜]],然后将[欧],[莱],[雅],[保],[湿],[眼],[霜]进行片段式拼接,可以得到如表1所示的多个片段序列,然后将片段序列内的每个字符与预设实体名称进行文本匹配,在完全匹配的情况下,确定出对应的实体类型(实体类别)比如预设实体名称是“欧莱雅”,其对应的实体类别为“品牌”,预设实体名称是“欧莱雅保湿眼霜”,其对应的实体类别为“产品”,只要与“欧莱雅”、“欧莱雅保湿眼霜”匹配上,则实体类型即可得出,具体可参照表1内容。
表1
Figure BDA0003566208060000101
Figure BDA0003566208060000111
将上述得到的训练文本数据与对应的实体类型作为训练样本集,用于后面的模型训练即可。
在本申请实施例中,采用标注数据的远程监督片段序列标注的方法,解决了实体类型嵌套的问题。
作为一种可选实施例,对字符标注进行片段式拼接,生成多个片段序列包括:
确定出预设窗口长度,其中,预设窗口长度为每个片段序列内所允许包含的字符总数的最大值;
在预设窗口长度的范围内,将每个片段中包含的头字符和尾字符进行拼接,得到多个片段序列,其中,每个片段包含至少一个字符。
可选地,在对训练文本数据进行片段划分时,可以设置一个预设窗口长度,该与预设窗口长度为每个片段序列内所允许包含的字符总数的最大值,通常小于10,比如设置为9等,然后在进行片段划分时需要在预设窗口长度范围内进行每个片段中包含的头字符和尾字符的拼接,如表1中的片段序列1:“欧”,片段序列2:“欧莱”……,进而得到多个片段序列。可以得知的是,在每个片段序列中包含的字符个数至少为1个。
在本申请实施例中,由于太长的实体在训练样本中占比较少,所以通过设置最大片段序列的长度,来控制片段序列长度,减少资源浪费。
作为一种可选实施例,在将训练文本数据与实体类型作为训练集之后,方法还包括:
根据训练文本数据和第一模型,生成每个片段序列对应的多个隐向量;
将多个隐向量输入第一模型的前馈神经网络,得到每个隐向量属于实体类型的第一概率数值;
根据第一概率数值,经过预设次数的跌代,调整第一模型的第一模型参数,得到第二模型;
基于第二模型和多个片段序列,调整第三模型的第三模型参数,得到目标模型。
可选地,利用预训练模型BERT构建一个初始领域BERT_NER模型,即第一模型。将第一模型作为编码器,将训练文本数据输入第一模型中,得到每个字符对应的隐向量,如图3所示。然后每一个片段序列由片段中头字符的隐向量和尾字符的隐向量组合(向量相加、相减、点积)拼接而成,生成每个片段序列对应的多个隐向量;最后利用一个前馈神经网络作为片段实体类型的分类器,将每个片段序列对应的多个隐向量输入第一模型的前馈神经网络,得到每个隐向量属于实体类型的第一概率数值。
上述内容可参见图3,图中的Ei表示第i个字符的隐向量,Hi表示第i个片段的隐向量,Li表示第i个片段序列的标签。
基于第一概率数值与训练集中的实体类型进行比较,若第一概率数值所指示的标签与训练集中的实体类型不一致,则对第一模型的第一模型参数进行调参,这时可以经过第四模型得到的预设次数,将第一模型去跌代预设次数次,进而得到了第二模型(如图4)。
然后基于得到的第二模型和训练集中的由训练文本数据生成的多个片段序列,去调整第三模型的第三模型参数,进而得到目标模型。
作为一种可选实施例,基于第二模型和多个片段序列,调整第三模型的第三模型参数,得到目标模型包括:
利用第二模型的第二模型参数初始化第三模型,其中,当前第三模型内的第三模型参数等于第二模型参数;
将多个隐向量输入第三模型中,得到每个片段序列属于实体类型的参考概率数值;
利用均方差损失函数训练第三模型,调整第三模型的第三模型参数,直到参考概率数值大于或者等于预设阈值,得到目标模型,其中,预设阈值为停止调整第三模型参数的最小值。
可选地,将第二模型中的第二模型参数应用于第三模型中,即将训练迭代次数预设次数后得到的BERT_NER模型参数初始化第三模型,将第三模型内的第三模型参数设置为第二模型参数。
在这里,第三模型是teacher-student模型,可以将teacher模型作为第三模型的第一子模型,将student模型作为第三模型的第二子模型,teacher模型和student模型的模型结构跟BERT_NER模型一样。
将多个隐向量输入第三模型的第一子模型中,得到第二概率数值;基于第二概率数值,利用均方差损失函数训练第三模型的第二子模型,直到完成预设次数的迭代,得到训练后的第二子模型的第二子模型参数;利用第二子模型参数更新第一子模型中的第一子模型参数,得到更新后的第一子模型;将多个隐向量输入更新后的第一子模型,得到第三概率数值;基于第三概率数值,调整第二子模型参数,直到第二子模型输出的参考概率数值大于或者等于预设阈值,停止调整第二子模型参数,得到目标模型。
上述是第三模型的自学习的训练过程,可参见图4:利用第二模型参数固定teacher模型的模型参数,使用teacher模型预测训练集中每个片段序列属于各个实体类型的概率。然后利用teacher模型得到结果,采用均方差损失函数,训练student模型并更新student模型参数。当完成设置的预设次数的迭代后,使用student模型的模型参数去更新teacher模型的模型参数。重复上述步骤N次,直到最后一次N-1次迭代得到student模型输出的参考概率数值大于或者等于预设阈值,则停止迭代循环,将当前的student模型作为最终的NER模型Finanl_NER。
在本申请实施例中,利用自学习的方式训练NER模型,解决了数据漏标的问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM(Read-Only Memory,只读存储器)/RAM(Random Access Memory,随机存取存储器)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
根据本申请实施例的另一个方面,还提供了一种用于实施上述实体识别的方法的实体识别的装置。图5是根据本申请实施例的一种可选的实体识别的装置的结构框图,如图5所示,该装置可以包括:
第一获取单元501,用于获取待识别的目标文本数据;
第一输入单元502,与第一获取单元501相连,用于将目标文本数据输入目标模型内,得到目标文本数据属于的目标实体类别,其中,目标模型用于得到文本数据的标注信息,并根据标注信息识别出目标实体类别,目标模型是通过对第三模型进行第三模型参数调整后,得到的最终模型,第三模型为沿用第二模型内的第二模型参数,对训练集进行预训练的模型,第二模型为对第一模型进行预设次数的迭代训练后得到的模型,预设次数是利用第四模型对训练集进行处理得到的。
需要说明的是,该实施例中的第一获取单元501可以用于执行上述步骤S201,该实施例中的第一输入单元502可以用于执行上述步骤S202。
通过上述模块,将得到训练好的目标模型作为处理待识别的目标文本数据所属实体类别的最终模型,实现了自动化识别的效果,节省了人力,提高了识别效率,且目标模型是经过第一模型、第二模型、第三模型以及第四模型自学习的方式不断训练调参完成的,在识别实体类别时更加精准,解决了数据漏标和标错的问题。
作为一种可选的实施例,该装置还包括:
第二获取单元,用于在获取待识别的目标文本数据之前,获取训练文本数据;
拼接单元,用于按照预设方案对训练文本数据内的字符进行片段式拼接,生成多个片段序列;
匹配单元,用于将片段序列内的每个字符与预设实体名称进行文本匹配,确定出训练文本数据属于的实体类型;
设置单元,用于将训练文本数据与实体类型作为训练集。
作为一种可选的实施例,拼接单元包括:
划分模块,用于将训练文本数据按照单字符形式进行划分,并对划分后的每个字符进行字符标注;
拼接模块,用于对字符标注进行片段式拼接,生成多个片段序列。
作为一种可选的实施例,拼接模块包括:
确定子单元,用于确定出预设窗口长度,其中,预设窗口长度为每个片段序列内所允许包含的字符总数的最大值;
拼接子单元,用于在预设窗口长度的范围内,将每个片段中包含的头字符和尾字符进行拼接,得到多个片段序列,其中,每个片段包含至少一个字符。
作为一种可选的实施例,该装置还包括:
第二输入单元,用于在将训练文本数据与实体类型作为训练集之后,根据训练文本数据和第一模型,生成每个片段序列对应的多个隐向量;
第三输入单元,用于将多个隐向量输入第一模型的前馈神经网络,得到每个隐向量属于实体类型的第一概率数值;
第一调整单元,用于根据第一概率数值,经过预设次数的跌代,调整第一模型的第一模型参数,得到第二模型;
第二调整单元,用于基于第二模型和多个片段序列,调整第三模型的第三模型参数,得到目标模型。
作为一种可选的实施例,第二调整单元包括:
初始化模块,用于利用第二模型的第二模型参数初始化第三模型,其中,当前第三模型内的第三模型参数等于第二模型参数;
输入模块,用于将多个隐向量输入第三模型中,得到每个片段序列属于实体类型的参考概率数值;
第一调整模块,用于利用均方差损失函数训练第三模型,调整第三模型的第三模型参数,直到参考概率数值大于或者等于预设阈值,得到目标模型,其中,预设阈值为停止调整第三模型参数的最小值。
作为一种可选的实施例,第一调整模块包括:
第一输入子单元,用于将多个隐向量输入第三模型的第一子模型中,得到第二概率数值;
训练子单元,用于基于第二概率数值,利用均方差损失函数训练第三模型的第二子模型,直到完成预设次数的迭代,得到训练后的第二子模型的第二子模型参数;
更新子单元,用于利用第二子模型参数更新第一子模型中的第一子模型参数,得到更新后的第一子模型;
第二输入子单元,用于将多个隐向量输入更新后的第一子模型,得到第三概率数值;
第二调整模块,用于基于第三概率数值,调整第二子模型参数,直到第二子模型输出的参考概率数值大于或者等于预设阈值,停止调整第二子模型参数,得到目标模型。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
根据本申请实施例的又一个方面,还提供了一种用于实施上述实体识别的方法的电子设备,该电子设备可以是服务器、终端、或者其组合。
图6是根据本申请实施例的一种可选的电子设备的结构框图,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601、通信接口602和存储器603通过通信总线604完成相互间的通信,其中,
存储器603,用于存储计算机程序;
处理器601,用于执行存储器603上所存放的计算机程序时,实现如下步骤:
获取待识别的目标文本数据;
将目标文本数据输入目标模型内,得到目标文本数据属于的目标实体类别,其中,目标模型用于得到文本数据的标注信息,并根据标注信息识别出目标实体类别,目标模型是通过对第三模型进行第三模型参数调整后,得到的最终模型,第三模型为沿用第二模型内的第二模型参数,对训练集进行预训练的模型,第二模型为对第一模型进行预设次数的迭代训练后得到的模型,预设次数是利用第四模型对训练集进行处理得到的。
可选地,在本实施例中,上述的通信总线可以是PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括RAM,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
作为一种示例,如图6所示,上述存储器603中可以但不限于包括上述实体识别的装置中的第一获取单元501、第一输入单元502。此外,还可以包括但不限于上述实体识别的装置中的其他模块单元,本示例中不再赘述。
上述处理器可以是通用处理器,可以包含但不限于:CPU(Central ProcessingUnit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(DigitalSignal Processing,数字信号处理器)、ASIC(Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
此外,上述电子设备还包括:显示器,用于显示实体识别的结果。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图6所示的结构仅为示意,实施上述实体识别的方法的设备可以是终端设备,该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图6其并不对上述电子设备的结构造成限定。例如,终端设备还可包括比图6中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图6所示的不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
根据本申请实施例的又一个方面,还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行实体识别的方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
获取待识别的目标文本数据;
将目标文本数据输入目标模型内,得到目标文本数据属于的目标实体类别,其中,目标模型用于得到文本数据的标注信息,并根据标注信息识别出目标实体类别,目标模型是通过对第三模型进行第三模型参数调整后,得到的最终模型,第三模型为沿用第二模型内的第二模型参数,对训练集进行预训练的模型,第二模型为对第一模型进行预设次数的迭代训练后得到的模型,预设次数是利用第四模型对训练集进行处理得到的。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例中对此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
根据本申请实施例的又一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一个实施例中的实体识别的方法步骤。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例实体识别的方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种实体识别的方法,其特征在于,所述方法包括:
获取待识别的目标文本数据;
将所述目标文本数据输入目标模型内,得到所述目标文本数据属于的目标实体类别,其中,所述目标模型用于得到所述文本数据的标注信息,并根据所述标注信息识别出所述目标实体类别,所述目标模型是通过对第三模型进行第三模型参数调整后,得到的最终模型,所述第三模型为沿用第二模型内的第二模型参数,对训练集进行预训练的模型,所述第二模型为对第一模型进行预设次数的迭代训练后得到的模型,所述预设次数是利用第四模型对所述训练集进行处理得到的。
2.根据权利要求1所述的方法,其特征在于,在所述获取待识别的目标文本数据之前,所述方法还包括:
获取训练文本数据;
按照预设方案对所述训练文本数据内的字符进行片段式拼接,生成多个片段序列;
将所述片段序列内的每个字符与预设实体名称进行文本匹配,确定出所述训练文本数据属于的实体类型;
将所述训练文本数据与所述实体类型作为所述训练集。
3.根据权利要求2所述的方法,其特征在于,所述按照预设方案对所述训练文本数据内的字符进行片段式拼接,生成多个片段序列包括:
将所述训练文本数据按照单字符形式进行划分,并对划分后的每个字符进行字符标注;
对所述字符标注进行片段式拼接,生成多个所述片段序列。
4.根据权利要求3所述的方法,其特征在于,所述对所述字符标注进行片段式拼接,生成多个所述片段序列包括:
确定出预设窗口长度,其中,所述预设窗口长度为每个所述片段序列内所允许包含的字符总数的最大值;
在所述预设窗口长度的范围内,将每个片段中包含的头字符和尾字符进行拼接,得到多个所述片段序列,其中,每个所述片段包含至少一个字符。
5.根据权利要求2所述的方法,其特征在于,在所述将所述训练文本数据与所述实体类型作为所述训练集之后,所述方法还包括:
根据所述训练文本数据和所述第一模型,生成每个所述片段序列对应的多个隐向量;
将多个所述隐向量输入所述第一模型的前馈神经网络,得到每个所述隐向量属于所述实体类型的第一概率数值;
根据所述第一概率数值,经过所述预设次数的跌代,调整所述第一模型的第一模型参数,得到所述第二模型;
基于所述第二模型和多个所述片段序列,调整所述第三模型的第三模型参数,得到所述目标模型。
6.根据权利要求5所述的方法,其特征在于,所述基于所述第二模型和多个所述片段序列,调整所述第三模型的第三模型参数,得到所述目标模型包括:
利用所述第二模型的第二模型参数初始化所述第三模型,其中,当前所述第三模型内的第三模型参数等于所述第二模型参数;
将多个所述隐向量输入所述第三模型中,得到每个所述片段序列属于所述实体类型的参考概率数值;
利用均方差损失函数训练所述第三模型,调整所述第三模型的所述第三模型参数,直到所述参考概率数值大于或者等于预设阈值,得到所述目标模型,其中,所述预设阈值为停止调整所述第三模型参数的最小值。
7.根据权利要求6所述的方法,其特征在于,所述利用均方差损失函数训练所述第三模型,调整所述第三模型的所述第三模型参数,直到所述参考概率数值大于或者等于预设阈值,得到所述目标模型包括:
将多个所述片段序列输入所述第三模型的第一子模型中,得到第二概率数值;
基于所述第二概率数值,利用所述均方差损失函数训练所述第三模型的第二子模型,直到完成所述预设次数的迭代,得到训练后的第二子模型的第二子模型参数;
利用所述第二子模型参数更新所述第一子模型中的第一子模型参数,得到更新后的第一子模型;
将多个所述隐向量输入更新后的第一子模型,得到第三概率数值;
基于所述第三概率数值,调整所述第二子模型参数,直到所述第二子模型输出的所述参考概率数值大于或者等于所述预设阈值,停止调整所述第二子模型参数,得到所述目标模型。
8.一种实体识别的装置,其特征在于,所述装置包括:
第一获取单元,用于获取待识别的目标文本数据;
第一输入单元,用于将所述目标文本数据输入目标模型内,得到所述目标文本数据属于的目标实体类别,其中,所述目标模型用于得到所述文本数据的标注信息,并根据所述标注信息识别出所述目标实体类别,所述目标模型是通过对第三模型进行第三模型参数调整后,得到的最终模型,所述第三模型为沿用第二模型内的第二模型参数,对训练集进行预训练的模型,所述第二模型为对第一模型进行预设次数的迭代训练后得到的模型,所述预设次数是利用第四模型对所述训练集进行处理得到的。
9.一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信,其特征在于,
所述存储器,用于存储计算机程序;
所述处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行权利要求1至7中任一项所述的方法步骤。
10.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现权利要求1至7中任一项中所述的方法步骤。
CN202210307561.0A 2022-03-25 2022-03-25 实体识别的方法和装置、电子设备和存储介质 Pending CN114626380A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210307561.0A CN114626380A (zh) 2022-03-25 2022-03-25 实体识别的方法和装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210307561.0A CN114626380A (zh) 2022-03-25 2022-03-25 实体识别的方法和装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN114626380A true CN114626380A (zh) 2022-06-14

Family

ID=81903109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210307561.0A Pending CN114626380A (zh) 2022-03-25 2022-03-25 实体识别的方法和装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN114626380A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115545578A (zh) * 2022-12-01 2022-12-30 南京迈能能源科技有限公司 一种电力调度操作指令信息抽取方法及系统
CN116127067A (zh) * 2022-12-28 2023-05-16 北京明朝万达科技股份有限公司 文本分类方法、装置、电子设备和存储介质
CN116522935A (zh) * 2023-03-29 2023-08-01 北京德风新征程科技股份有限公司 文本数据处理方法、处理装置和电子设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115545578A (zh) * 2022-12-01 2022-12-30 南京迈能能源科技有限公司 一种电力调度操作指令信息抽取方法及系统
CN116127067A (zh) * 2022-12-28 2023-05-16 北京明朝万达科技股份有限公司 文本分类方法、装置、电子设备和存储介质
CN116127067B (zh) * 2022-12-28 2023-10-20 北京明朝万达科技股份有限公司 文本分类方法、装置、电子设备和存储介质
CN116522935A (zh) * 2023-03-29 2023-08-01 北京德风新征程科技股份有限公司 文本数据处理方法、处理装置和电子设备
CN116522935B (zh) * 2023-03-29 2024-03-29 北京德风新征程科技股份有限公司 文本数据处理方法、处理装置和电子设备

Similar Documents

Publication Publication Date Title
CN109299458B (zh) 实体识别方法、装置、设备及存储介质
CN110781276B (zh) 文本抽取方法、装置、设备及存储介质
CN110147551B (zh) 多类别实体识别模型训练、实体识别方法、服务器及终端
CN109471915B (zh) 一种文本评价方法、装置、设备以及可读存储介质
CN114626380A (zh) 实体识别的方法和装置、电子设备和存储介质
CN109920414A (zh) 人机问答方法、装置、设备和存储介质
CN111523640B (zh) 神经网络模型的训练方法和装置
CN111753076B (zh) 对话方法、装置、电子设备及可读存储介质
CN111221936B (zh) 一种信息匹配方法、装置、电子设备及存储介质
CN111310440A (zh) 文本的纠错方法、装置和系统
CN110929524A (zh) 数据筛选方法、装置、设备及计算机可读存储介质
CN111259112A (zh) 医疗事实的验证方法和装置
CN114861112B (zh) 基于数据存取和大数据分类的信息分发方法及系统
CN110825827A (zh) 一种实体关系识别模型训练、实体关系识别方法及装置
CN112183055A (zh) 结合rpa和ai的信息获取方法、装置、计算机设备及介质
CN112906361A (zh) 文本数据的标注方法和装置、电子设备和存储介质
CN112818996A (zh) 指令识别方法和装置、存储介质及电子设备
CN112188311B (zh) 用于确定新闻的视频素材的方法和装置
CN112507095A (zh) 基于弱监督学习的信息识别方法及相关设备
CN116245097A (zh) 训练实体识别模型的方法、实体识别方法及对应装置
CN111651674A (zh) 双向搜索方法、装置及电子设备
CN109408175B (zh) 通用高性能深度学习计算引擎中的实时交互方法及系统
CN112395880B (zh) 结构化三元组的纠错方法、装置、计算机设备及存储介质
CN115952854B (zh) 文本脱敏模型的训练方法、文本脱敏方法及应用
CN112380861A (zh) 模型训练方法、装置及意图识别方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination