CN116384515B - 一种模型训练的方法、装置、存储介质及电子设备 - Google Patents

一种模型训练的方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN116384515B
CN116384515B CN202310663586.9A CN202310663586A CN116384515B CN 116384515 B CN116384515 B CN 116384515B CN 202310663586 A CN202310663586 A CN 202310663586A CN 116384515 B CN116384515 B CN 116384515B
Authority
CN
China
Prior art keywords
text
training text
training
entity name
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310663586.9A
Other languages
English (en)
Other versions
CN116384515A (zh
Inventor
王宇轩
郏维强
万志国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202310663586.9A priority Critical patent/CN116384515B/zh
Publication of CN116384515A publication Critical patent/CN116384515A/zh
Application granted granted Critical
Publication of CN116384515B publication Critical patent/CN116384515B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本说明书公开了一种模型训练的方法、装置、存储介质及电子设备。本说明书实施例在文本识别模型训练的过程中,所用的训练文本中包含真实实体信息的标签,并且是通过识别该训练文本中的实体名称词的位置来对该文本识别模型进行训练的,因此通过这种方式最终所训练出的文本识别模型,在进行文本识别时,不仅能准确划分出该文本中实体名称词所在的位置,并且还能准确的识别出该实体名称词所表征的实体,从而在使用最终所训练出的文本识别模型所得到的向量表示来完成下游业务时,能够保证下游业务的准确执行。

Description

一种模型训练的方法、装置、存储介质及电子设备
技术领域
本说明书涉及自然语言处理技术领域,尤其涉及一种模型训练的方法、装置、存储介质及电子设备。
背景技术
现如今,随着科技的发展,涌现了越来越多的可以实际应用于帮助改善人们生产生活的人工智能模型,促进了现代社会的发展和人类社会的进步。
语言模型即是人们在实际应用中常使用的模型之一,其主要的功能是:可以根据输入的文本信息输出相应的向量表示,这里模型所输出的向量表示可以用于进行如机器翻译、知识问答等下游业务。
而为了提高语言模型的应用效果,通常需要对多语语言模型进行训练。然而,目前训练所得到的语言模型由于无法很好的识别出输入的文本中的实体信息(这里的实体指如人名、地名等之类的概念),所以无法很好的完成后续的下游业务。
发明内容
本说明书提供一种模型训练的方法、装置、存储介质及电子设备,以部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种模型训练的方法,包括:
获取训练文本;
将所述训练文本输入到所述文本识别模型中的第一编码层,以使所述第一编码层从所述训练文本中划分出各实体名称词,并确定所述每个实体名称词对应的特征向量;
针对划分出的每个实体名称词,通过所述第一编码层,确定该实体名称词所对应的特征向量与预设的实体向量表中的各真实实体词所对应的向量的相似度,并确定经过所述相似度加权后的该实体名称词的加权后向量;
将每个实体名称词的加权后向量输入到所述文本识别模型中的第二编码层,以使所述第二编码层基于每个实体名称词的加权后向量,来对所述训练文本中所包含的实体进行识别,得到最终识别结果;
根据所述文本识别模型从所述训练文本划分出的各实体名称词在所述训练文本中的位置与所述训练文本中所包含的真实实体名称词在所述训练文本中的位置之间的偏差,以及所述最终识别结果与所述训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练。
可选地,在根据所述文本识别模型从所述训练文本划分出的各实体名称词在所述训练文本中的位置与所述训练文本中所包含的真实实体名称词在所述训练文本中的位置之间的偏差,以及所述最终识别结果与所述训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练之前,所述方法还包括:
针对划分出的每个实体名称词,通过所述第一编码层,确定该实体名称词所对应的特征向量与预设的实体向量表中的各真实实体词所对应的向量的相似度,并根据所述相似度来对所述训练文本中所包含的实体进行识别,得到中间识别结果;
根据所述文本识别模型从所述训练文本划分出的各实体名称词在所述训练文本中的位置与所述训练文本中所包含的真实实体名称词在所述训练文本中的位置之间的偏差,以及所述最终识别结果与所述训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练,具体包括:
以最小化所述文本识别模型从所述训练文本划分出的各实体名称词在所述训练文本中的位置与所述训练文本中所包含的真实实体名称词在所述训练文本中的位置之间的偏差、最小化所述中间识别结果与所述训练文本中包含的真实实体之间的偏差以及最小化所述最终识别结果与所述训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练。
可选地,在将所述训练文本输入到所述文本识别模型中的第一编码层之前,所述方法还包括:
对所述训练文本中的部分单字进行遮盖,以将遮盖后的训练文本,重新作为训练文本;
将所述训练文本输入到所述文本识别模型中的第一编码层,以使所述第一编码层从所述训练文本中划分出各实体名称词,并确定所述每个实体名称词对应的特征向量,具体包括:
将所述遮盖后的训练文本输入到所述文本识别模型中的第一编码层,以使所述第一编码层从所述遮盖后的训练文本中划分出各实体名称词,并确定所述每个实体名称词对应的特征向量。
可选地,在根据所述文本识别模型从所述训练文本划分出的各实体名称词在所述训练文本中的位置与所述训练文本中所包含的真实实体名称词在所述训练文本中的位置之间的偏差,以及所述最终识别结果与所述训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练之前,所述方法还包括:
通过输入到所述第二编码层的所述遮盖后的训练文本中每个词或字所对应的加权后向量,来预测被遮盖的文本内容,以得到预测结果;
根据所述文本识别模型从所述训练文本划分出的各实体名称词在所述训练文本中的位置与所述训练文本中所包含的真实实体名称词在所述训练文本中的位置之间的偏差,以及所述最终识别结果与所述训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练,具体包括:
以最小化所述文本识别模型从所述训练文本划分出的各实体名称词在所述训练文本中的位置与所述训练文本中所包含的真实实体名称词在所述训练文本中的位置之间的偏差、最小化所述预测结果与所述训练文本中为遮盖的实际文本内容之间的偏差,以及最小化所述最终识别结果与所述训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练。
可选的,将每个实体名称词的加权后向量输入到所述文本识别模型中的第二编码层,以使所述第二编码层基于每个实体名称词的加权后向量,来对所述训练文本中所包含的实体进行识别,得到最终识别结果,具体包括:
将划分出的每个实体名称词的加权后向量输入到所述文本识别模型中的第二编码层,以使所述第二编码层基于划分出的每个实体名称词的加权后向量,确定每个实体名称词所对应的更新后加权后向量;
针对划分出的每个实体名称词,通过所述第二编码层,确定该实体名称词所对应的更新后加权后向量与预设的实体向量表中的各真实实体词所对应的向量的相似度,并根据所述相似度来对所述训练文本中所包含的实体进行识别,得到最终识别结果。
可选的,将所述训练文本输入到所述文本识别模型中的第一编码层,以使所述第一编码层从所述训练文本中划分出各实体名称词,具体包括:
将所述训练文本输入到所述文本识别模型中的第一编码层,以使所述第一编码层确定所述训练文本中确定每个单字所对应的标识符,并通过确定出的所述训练文本中每个单字所对应的标识符,从所述训练文本中划分出各实体名称词;
其中,所述标识符包括起始标识符和终止标识符,所述起始标识符用于标识一个实体名称词中的第一个单字在所述训练文本中所处的位置,所述终止标识符于标识一个实体名称词中的最后一个单字在所述训练文本中所处的位置。
本说明书提供了一种模型训练的装置,包括:
获取模块,用于获取训练文本;
第一确定模块,用于将所述训练文本输入到所述文本识别模型中的第一编码层,以使所述第一编码层从所述训练文本中划分出各实体名称词,并确定所述每个实体名称词对应的特征向量;
第二确定模块,用于针对划分出的每个实体名称词,通过所述第一编码层,确定该实体名称词所对应的特征向量与预设的实体向量表中的各真实实体词所对应的向量的相似度,并确定经过所述相似度加权后的该实体名称词的加权后向量;
第一识别模块,用于将每个实体名称词的加权后向量输入到所述文本识别模型中的第二编码层,以使所述第二编码层基于每个实体名称词的加权后向量,来对所述训练文本中所包含的实体进行识别,得到最终识别结果;
训练模块,用于根据所述文本识别模型从所述训练文本划分出的各实体名称词在所述训练文本中的位置与所述训练文本中所包含的真实实体名称词在所述训练文本中的位置之间的偏差,以及所述最终识别结果与所述训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练。
可选的,所述装置还包括:第二识别模块,其中,所述第二识别模块用于在根据所述文本识别模型从所述训练文本划分出的各实体名称词在所述训练文本中的位置与所述训练文本中所包含的真实实体名称词在所述训练文本中的位置之间的偏差,以及所述最终识别结果与所述训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练之前,针对划分出的每个实体名称词,通过所述第一编码层,确定该实体名称词所对应的特征向量与预设的实体向量表中的各真实实体词所对应的向量的相似度,并根据所述相似度来对所述训练文本中所包含的实体进行识别,得到中间识别结果;
所述训练模块具体用于,以最小化所述文本识别模型从所述训练文本划分出的各实体名称词在所述训练文本中的位置与所述训练文本中所包含的真实实体名称词在所述训练文本中的位置之间的偏差、最小化所述中间识别结果与所述训练文本中包含的真实实体之间的偏差以及最小化所述最终识别结果与所述训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练。
可选的,所述装置还包括:遮盖模块,其中,所述遮盖模块用于在将所述训练文本输入到所述文本识别模型中的第一编码层之前,对所述训练文本中的部分单字进行遮盖,以将遮盖后的训练文本,重新作为训练文本;
所述第一识别模块具体用于,将所述遮盖后的训练文本输入到所述文本识别模型中的第一编码层,以使所述第一编码层从所述遮盖后的训练文本中划分出各实体名称词,并确定所述每个实体名称词对应的特征向量。
可选的,所述装置还包括:预测模块,其中,所述预测模块用于在根据所述文本识别模型从所述训练文本划分出的各实体名称词在所述训练文本中的位置与所述训练文本中所包含的真实实体名称词在所述训练文本中的位置之间的偏差,以及所述最终识别结果与所述训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练之前,通过输入到所述第二编码层的所述遮盖后的训练文本中每个词或字所对应的加权后向量,来预测被遮盖的文本内容,以得到预测结果;
所述训练模块具体用于,以最小化所述文本识别模型从所述训练文本划分出的各实体名称词在所述训练文本中的位置与所述训练文本中所包含的真实实体名称词在所述训练文本中的位置之间的偏差、最小化所述预测结果与所述训练文本中为遮盖的实际文本内容之间的偏差,以及最小化所述最终识别结果与所述训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练。
可选的,所述第一识别模块具体用于,将划分出的每个实体名称词的加权后向量输入到所述文本识别模型中的第二编码层,以使所述第二编码层基于划分出的每个实体名称词的加权后向量,确定每个实体名称词所对应的更新后加权后向量;针对划分出的每个实体名称词,通过所述第二编码层,确定该实体名称词所对应的更新后加权后向量与预设的实体向量表中的各真实实体词所对应的向量的相似度,并根据所述相似度来对所述训练文本中所包含的实体进行识别,得到最终识别结果。
可选的,所述第一确定模块具体用于,将所述训练文本输入到所述文本识别模型中的第一编码层,以使所述第一编码层确定所述训练文本中确定每个单字所对应的标识符,并通过确定出的所述训练文本中每个单字所对应的标识符,从所述训练文本中划分出各实体名称词;其中,所述标识符包括起始标识符和终止标识符,所述起始标识符用于标识一个实体名称词中的第一个单字在所述训练文本中所处的位置,所述终止标识符于标识一个实体名称词中的最后一个单字在所述训练文本中所处的位置。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述模型训练的方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述模型训练的方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
本说明书提供的模型训练的方法,获取训练文本,将该训练文本输入到该文本识别模型中的第一编码层,以使该第一编码层从该训练文本中划分出各实体名称词,并确定该每个实体名称词对应的特征向量,针对划分出的每个实体名称词,通过该第一编码层,确定该实体名称词所对应的特征向量与预设的实体向量表中的各真实实体词所对应的向量的相似度,并确定经过该相似度加权后的该实体名称词的加权后向量,将每个实体名称词的加权后向量输入到该文本识别模型中的第二编码层,以使该第二编码层基于每个实体名称词的加权后向量,来对该训练文本中所包含的实体进行识别,得到最终识别结果,根据该文本识别模型从该训练文本划分出的各实体名称词在该训练文本中的位置与该训练文本中所包含的真实实体名称词在该训练文本中的位置之间的偏差,以及该最终识别结果与该训练文本中包含的真实实体之间的偏差,对该文本识别模型进行训练。
从上述方法中可以看出,在文本识别模型训练的过程中,所用的训练文本中包含真实实体信息的标签,并且是通过识别该训练文本中的实体名称词的位置来对该文本识别模型进行训练的,因此通过这种方式最终所训练出的文本识别模型,在进行文本识别时,不仅能准确划分出该文本中实体名称词所在的位置,并且还能准确的识别出该实体名称词所表征的实体,从而在使用最终所训练出的文本识别模型所得到的向量表示来完成下游业务时,能够保证下游业务的准确执行。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书中提供的一种模型训练的方法的流程示意图;
图2为本说明书中提供的一种模型训练的流程示意图;
图3为本说明书提供的一种模型训练的装置结构的示意图;
图4为本说明书提供的对应于图1的电子设备的结构示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书中提供的一种模型训练的方法的流程示意图,包括以下步骤:
S101:获取训练文本。
本说明书中涉及的模型训练的方法的执行主体可以是诸如台式电脑、笔记本电脑等终端设备,也可以是服务器,下面仅以终端设备是执行主体为例,对本说明书实施例中的模型训练的方法进行说明。
如今,人们可以通过文本识别模型来完成如问题问答、智能客服等下游业务,即文本识别模型可以根据输入到该文本识别模型中的文本,确定出该文本所对应的向量表示,并根据该向量表示来确定出预设的关于该文本中的问题的回答。
然而,由于目前的文本识别模型无法准确的识别出该文本中所包含的真实的实体,所以目前的文本识别模型所确定出的该文本所对应的向量表示无法表征出该文本中所包含的实体,因此现有的文本识别模型所确定出的向量表示无法很好的服务于下游业务。
在本说明书具体实施中,终端设备首先获取训练文本,并且终端设备可以同时获取到该训练文本中所包含的真实实体名称词在该训练文本中的位置。
其中,这里的获取训练文本用于后续对文本识别模型进行训练,该文本识别模型至少包括第一编码层以及第二编码层。
该文本识别模型可以用于对输入到该文本识别模型中的文本中所包含的实体进行识别。具体的,该文本识别模型可以根据该文本中的每个字所对应的向量,来划分出识别出该文本中所包含的每个实体名称词。
其中,这里的实体指的是如某个人名、某个地名等的概念,而实体所对应的实体名称词指的是该实体在该文本中的文字表示。
而为了使得最终训练出的文本识别模型能够更好的表征出该训练文本所对应的向量,所以一旦获取到了该训练文本,终端设备也可以首先对该训练文本中的部分单字进行遮盖,以将遮盖后的训练文本,重新作为训练文本。
S102:将所述训练文本输入到所述文本识别模型中的第一编码层,以使所述第一编码层从所述训练文本中划分出各实体名称词,并确定所述每个实体名称词对应的特征向量。
在本说明书中,在获取训练文本之后,终端设备可以将该训练文本输入到所述文本识别模型中的第一编码层,以使所述第一编码层确定所述训练文本中确定每个单字所对应的标识符,并通过确定出的所述训练文本中每个单字所对应的标识符,从所述训练文本中划分出各实体名称词。
其中,所述标识符包括起始标识符和终止标识符,所述起始标识符用于标识一个实体名称词中的第一个单字在所述训练文本中所处的位置,所述终止标识符于标识一个实体名称词中的最后一个单字在所述训练文本中所处的位置。
具体的,在获取训练文本之后,终端设备可以首先根据该训练文本以及预设的单字与单字向量之间的单字向量表,确定出所述训练文本中的各个单字所对应的单字向量,并且根据所述训练文本中的各个单字的位置以及预设的位置与位置向量之间的位置向量映射表,确定出所述训练文本中的各个单字所对应的位置向量,之后,终端设备可以根据各个单字所对应的单字向量以及位置向量,确定出该训练文本中各个单字所对应的融合后向量。
之后,终端设备可以根据所述各个单字所对应的融合后向量,确定该训练文本中的所有单字所对应的融合后向量构成的矩阵,并将该训练文本中的所有单字所对应的融合后向量作为所述文本识别模型中的第一编码层中的输入。
其中,如果该文本识别模型中共有L个编码层,第1个编码层~第M个编码层构成了第一编码层,而第M+1个编码层~第L个编码层构成了第二编码层,那么第i个编码层所输入的向量所构成的矩阵则可以用来表示,相应的,上述提到的第一编码层中所输入该训练文本中的所有单字所对应的融合后向量所构成的矩阵可以用/>表示,/>中的每一行的行向量表示该训练文本中的一个单字所对应的融合后向量,具体的,/>中第1行的向量是该训练文本中第1个单字所对应的融合后向量,/>中第2行的向量是该训练文本中第2个单字所对应的融合后向量,以此类推。
而需要注意的是,该文本识别模型中的第i个编码层则可以根据该编码层所输入的矩阵,来确定第i个编码层所输出的矩阵/>,并将第i个编码层所输出的矩阵/>作为第i+1个编码层所输入的矩阵,这里根据/>确定/>的具体过程可以如下:
其中,,n为该训练文本中的所有单字的个数,d为每个单字所对应的向量的维度,/>、/>、/>以及/>是该文本识别模型中需要进行调节的参数(矩阵形式),/>也是该文本识别模型中需要进行调节的参数(向量形式),/>)矩阵的列数。LayerNorm为层标准化函数,/>是归一化指数函数,这两个函数均是现有的函数。
因为第一编码层一共有M个编码层,那么输入到第一个编码层中的矩阵经过这M个编码层的更新之后,第M个编码层则会输出由每个单字的更新后的融合后向量所构成的矩阵,那么这个矩阵则可以视为第一编码层所输出的矩阵,可以用/>来表示该矩阵,其中中的每一行的行向量表示经过前M个编码层所输出的一个单字所对应的更新后的融合后向量,其中,这里的更新后的融合后向量也可以用第一编码层更新后向量来表示。
此后,该第一编码层则可以根据所述训练文本中每个单字所对应的第一编码层更新后向量,来确定出每个单字所对应的标识符。
即,第一编码层可以根据中所包含的每个单字所对应的第一编码层更新后向量,确定出各个单字所对应的BIO标签,其中, BIO标签中的B标签代表该标签所对应的单字是实体名称词的开始词,I标签代表该标签所对应的单字是实体名称词的中间词或者结束词,O标签代表该标签所对应的单字是非实体名称词。
具体来说,第一编码层可以针对每个单字,根据该单字所对应的第一编码层更新后向量,确定出该单字所对应的BIO标签是的B标签的概率、I标签的概率以及O标签的概率,将最高的概率所对应的标签作为该单字的标签。
这里的每个单字所对应的BIO标签是的B标签的概率、I标签的概率以及O标签的概率可以根据以下公式来确定:
其中,GELU为高斯误差线性单元:
其中,,/>。/>、/>、/>、/>是该文本识别模型中需要进行调节的参数(矩阵形式)/>d为每个单字所对应的更新后的融合后向量的维度。这里的/>可以用于表述该文本识别模型所识别出的每个单字所对应的BIO标签是的B标签的概率、I标签的概率以及O标签的概率。
在确定出所述训练文本中给每个单字所对应的BIO标签之后,该文本识别模型可以根据该BIO标签,通过该第一编码层确定出所述训练文本中每个单字所对应的标识符。
即,如果该训练文本中只有一个单字所对应的BIO标签是B标签,只有一个与改单字相邻的单字所对应的BIO标签是I标签,那么该单字的位置所对应的标识符则是起始标识符,而与该单字相邻的单字的位置所对应的标识符则是终止标识符,那么这两个单字则会被该文本识别模型划分为一个实体名称词。
而一旦该第一编码层从该训练文本中划分出了各实体名称词,该文本识别模型则可以针对每个实体名称词,确定出该实体名称词所包含的各单字所对应的第一编码层更新后向量,并根据该实体名称词所包含的各单字所对应的第一编码层更新后向量,来确定出该实体名称词对应的特征向量。
具体的,可以首先将该训练文本中的第个划分出的实体名称词标记为,其中,/>表示第/>个划分出的实体名称词所对应的真实实体名,而/>表示第/>个划分出的实体名称词所包含的第一个单字在所述训练文本中的位置,/>表示第个划分出的实体名称词所包含的最后一个单字在所述训练文本中的位置。这里的/>、/>都是正整数。
而关于第个划分出的实体名称词对应的特征向量/>的确定,可以依据以下公式:/>
其中,,/>表示该文本识别模型中需要进行调节的参数(矩阵形式)/>为预设的实体向量表中每个实体向量的维度。/>表示所述训练文本中的第/>个单字所对应的第一编码层更新后向量,/>表示所述训练文本中的第/>个单字所对应的第一编码层更新后向量。
同时,对于遮盖后的训练文本,在终端设备将该遮盖后的训练文本输入到所述文本识别模型中的第一编码层之后,该第一编码层也可以从所述遮盖后的训练文本中划分出各实体名称词,并确定所述每个实体名称词对应的特征向量,方法同上,不再赘述。
S103:针对划分出的每个实体名称词,通过所述第一编码层,确定该实体名称词所对应的特征向量与预设的实体向量表中的各真实实体词所对应的向量的相似度,并确定经过所述相似度加权后的该实体名称词的加权后向量。
具体来说,一旦该文本识别模型确定出每个实体名称词以及每个实体名称词对应的特征向量,则可以针对划分出的每个实体名称词,通过所述第一编码层,确定该实体名称词所对应的特征向量与预设的实体向量表中的各真实实体词所对应的向量的相似度,并根据所述相似度来对所述训练文本中所包含的实体进行识别,得到中间识别结果。
这里的划分出的实体名称词所对应的特征向量与预设的实体向量表中的各真实实体词所对应的向量的相似度,具体可以根据下列公式确定:
其中,,/>为预设的实体向量表中所有实体向量的矩阵,/>为预设的实体向量表中实体向量个数,/>为预设的实体向量表中每个实体向量的维度。/>为第/>个实体名称词对应的特征向量。
这里的可以用于表述第/>个实体名称词属于预设的实体向量表中每个实体的概率,之后,可以将这里的最大的概率所对应的实体,确定为第/>个实体名称词属于的实体,并将这个实体识别结果作为第/>个划分出的实体名称词所对应的中间识别结果,显然,所有划分出的实体名称词所对应的中间识别结果则构成了所述中间识别结果。
而为了使得最终训练后的文本识别模型所输出的向量表示中含有输入到该文本识别模型中所包含的实体的实体信息,在训练过程中,第一编码层还可以根据上述划分出的实体名称词所对应的特征向量与预设的实体向量表中的各真实实体词所对应的向量的相似度来进行加权,以确定经过所述相似度加权后的该划分出的实体名称词的加权后向量,其中,第个划分出的实体名称词对应的的加权后向量/>,计算方法如下:
其中,,/>是该文本识别模型中需要进行调节的参数(矩阵形式),/>为预设的实体向量表中的各个实体向量,/>为预设的实体向量表中的实体向量的个数,/>为预设的实体向量表中每个实体向量的维度,/>表示所述训练文本中的第j个单字对应的第一编码层更新后向量。
之后,该文本识别模型可以将中的/>替换为/>,并将替换后的加入了额外实体信息的矩阵/>确定为/>,后续,/>可以作为第M+1个编码层的输入,而/>中则会包含第一编码层所划分出的每个实体名称词的加权后向量。
S104:将每个实体名称词的加权后向量输入到所述文本识别模型中的第二编码层,以使所述第二编码层基于每个实体名称词的加权后向量,来对所述训练文本中所包含的实体进行识别,得到最终识别结果。
具体可以是,在第二编码层获取到之后,首先通过所述第二编码层中的第M+1个编码层~第L个编码层,来对/>进行更新,得到/>,这里的/>则会包含划分出的每个实体名称词所对应的更新后加权后向量。之后,该文本识别模型可以针对划分出的每个实体名称词,通过所述第二编码层,确定该实体名称词所对应的更新后加权后向量与预设的实体向量表中的各真实实体词所对应的向量的相似度,并根据所述相似度来对所述训练文本中所包含的实体进行识别,得到最终识别结果。
具体,可以继续用上述来标记划分出的第/>个实体名称词。
而关于第个划分出的实体名称词对应的更新后加权后向量/>的确定,可以依据以下公式:
其中,,/>表示该文本识别模型中需要进行调节的参数(矩阵形式)/>为预设的实体向量表中每个实体向量的维度。/>表示所述训练文本中的第/>个单字所对应的更新后加权后向量。/>表示所述训练文本中的第/>个单字所对应的更新后加权后向量。
而该实体名称词所对应的更新后加权后向量与预设的实体向量表中的各真实实体词所对应的向量的相似度,具体可以根据下列公式确定:
其中,,/>为预设的实体向量表中所有实体向量的矩阵,/>为预设的实体向量表中实体向量个数,/>为预设的实体向量表中每个实体向量的维度。/>为第/>个实体名称词对应的更新后加权后向量。
这里的可以用于表述第/>个实体名称词属于预设的实体向量表中每个实体的概率,之后,可以将这里的最大的概率所对应的实体,确定为第/>个实体名称词属于的实体,并将这个实体识别结果作为第/>个划分出的实体名称词所对应的最终识别结果,显然,所有划分出的实体名称词所对应的中间识别结果则构成了所述最终识别结果。
此外,该文本识别模型也可以通过输入到该第二编码层的所述被遮盖部分单字后的训练文本中每个词或字所对应的加权后向量,来预测所述被遮盖的文本内容,以得到预测结果。
具体来说,该文本识别模型可以针对每个被遮盖的字所对应的更新后加权后向量,根据预设的单字向量表,确定出该被遮盖的字是所述预设的单字向量表中各个字的概率,之后,将最高的概率所对应的字作为该被遮盖的字的预测结果。
这里提到的概率具体可以用下式来确定:
其中,,/>,/>、/>表示该文本识别模型中需要进行调节的参数(矩阵形式)/>、/>也是该文本识别模型中需要进行调节的参数(向量形式),/>表示第/>个被遮盖的字所对应的更新后加权后向量,V为预设的单字向量表中字的总数。
/>
这里的可以用于表述第/>个被遮盖的字是所述预设的单字向量表中各个字的概率。
S105:根据所述文本识别模型从所述训练文本划分出的各实体名称词在所述训练文本中的位置与所述训练文本中所包含的真实实体名称词在所述训练文本中的位置之间的偏差,以及所述最终识别结果与所述训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练。
而为了使得最终训练所得到的模型效果最佳,可以在具体的模型训练过程中,从多个维度对该文本识别模型进行训练,这里的维度则可以包括所述文本识别模型对于从训练文本中划分出的各实体名称词在所述训练文本中的位置的准确度以及所述文本识别模型所识别出的最终识别结果的准确度。
而在结合上述两种维度对该文本识别模型进行训练时,则可以是:以最小化该文本识别模型从该训练文本划分出的各实体名称词在该训练文本中的位置与该训练文本中所包含的真实实体名称词在该训练文本中的位置之间的偏差、以及最小化该最终识别结果与该训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练。
其中,该文本识别模型从该训练文本划分出的各实体名称词在该训练文本中的位置与该训练文本中所包含的真实实体名称词在该训练文本中的位置之间的偏差可以用损失函数来表示:
其中,n表示所述训练文本中的所有单字的个数,表示/>中第i行的行向量(即第i个单字所对应的第一编码层更新后向量)所对应的划分出的实体名称词或者非实体名称词正确的概率(即当该行向量所对应的单字属于真实实体名称词时,/>则是该文本识别模型识别出的该单字是该真实实体名称词的概率;即当该行向量所对应的单字属于非真实实体名称词时,/>则是该文本识别模型识别出的该单字是非真实实体名称词的概率)。
而所述文本识别模型所得到的该最终识别结果与该训练文本中包含的真实实体之间的偏差可以用损失函数表示:
其中,为该文本识别模型所识划分出的实体名称词的总数,/>表示第/>个划分出的实体名称词所对应的真实实体名,/>表示最终结果中的第/>个划分出的实体名称词属于/>的概率。
而除了可以从上述两个维度来训练该文本识别模型之外,还可以结合预测所述被遮盖的文本内容时所得到预测结果与所述训练文本中为遮盖的实际文本内容之间的偏差,即以最小化该偏差来训练该文本识别模型,该偏差可以用损失函数表示:
其中,K表示所述训练文本中被遮盖的词或单字的数量。而表示/>中的第/>行所对应的更新后加权向量所对应的单字或者词是真实的被遮盖的文本内容的概率。
此外,还可以结合所述中间识别结果与所述训练文本中包含的真实实体之间的偏差来对该文本识别模型进行训练,即以最小化该偏差来训练该文本识别模型,该偏差可以用损失函数表示:
其中,为该文本识别模型所识划分出的实体名称词的总数,/>表示第/>个实体名称词所对应的第一编码层更新后向量,/>表示第/>个划分出的实体名称词所对应的真实实体名。/>表示所述中间识别结果中所对应的第/>个划分出的实体名称词属于/>的概率。
而当结合上述四个维度的损失来对该文本识别模型进行训练时,具体可以是首先确定总损失函数,之后,以最小化所述总损失函数,来对该文本识别模型进行训练。
这里的可以表示为:
图2为本说明书中提供的一种模型训练的流程示意图,通过图2可以示例性的可以将上述步骤串联起来。
图2中的“欧阳小红昨日参加班会”是上文中提到的训练文本,“M层”指的是第一编码层中一共有M个编码层,即上述内容中提到的该文本识别模型中的第1个编码层~第M个编码层构成了第一编码层,相应的,“L-M”层指的是第二编码层中一共有L-M个编码层,即上述内容中提到的第M+1个编码层~第L个编码层构成了第二编码层。
可以看出,“欧阳”、“ 小红” 、“ 昨日”、“参加”、“班会”是S102中根据预设的单字向量表所划分出的5个单字,图2中的“参加”是该训练文本中被随机遮盖的部分单字,“A”是“参加”这个单字所对应的遮盖后的文本。在获取到该训练文本之后,终端设备可以确定出该训练文本中的上述5个单字,之后再确定出这5个单字分别对应的位置向量与单字向量,并针对每个单字,将该单字所对应的位置向量与单字向量相加得到该单字所对应的融合后向量,并将各个单字所对应的融合后向量作为第一编码层的输入。
之后,该文本识别模型可以根据第一编码层所输出的第一编码层更新后向量,来进行该训练文本中的“实体名称词划分”,即根据图2中的每个单字所对应的BIO标签来划分出该训练文本中的实体名称词包括“欧阳”与“小红”这两个单字,那么“欧阳小红”则是从该训练文本中所划分出的实体名称词。
之后,可以根据该第一编码层更新后向量,来确定出该实体名称词对应的特征向量,并且根据该特征向量来进行“中间实体识别”,即如S103中所提到的根据上述特征向量与实体向量表中的各真实实体词所对应的向量的相似度,来确定该实体名称词对应的实体,即上文提到的中间识别结果。
此外,还可以进行“实体链接”,即将实体向量表中该中间识别结果所对应的实体的向量加到该实体名称词包括的各个单字所对应的第一编码层更新后向量中,即将该实体向量表中的“欧阳小红”对应的向量按照预设权重分别加到该训练文本中的“欧阳”对应的第一编码层更新后向量以及“小红”对应的第一编码层更新后向量中,以确定出第一编码层所划分出的每个实体名称词的加权后向量,其中,这里的每个实体名称词的加权后向量指的则是与中间识别结果中的实体信息建立了链接后的该实体名称词所对应的第一编码层更新后向量。
将上述加权后向量输入到第二编码层中,根据第二编码层所输出的更新后加权后向量,来再次对该训练文本中包含的实体进行识别,识别方法同上,不再赘述,以确定出最终识别结果。并且,该文本识别模型还可以根据更新后加权后向量,对被遮盖的文本内容进行预测,得到预测结果为“参加”。
之后,该终端设备可以计算出上述四个偏差所对应的损失函数,从而确定出总损失函数,并且以最小化该总损失函数来训练该文本识别模型。
从上述方法中可以看出,在文本识别模型训练的过程中,所用的训练文本中包含真实实体信息的标签,并且是通过识别该训练文本中的实体名称词的位置来对该文本识别模型进行训练的,因此通过这种方式最终所训练出的文本识别模型,在进行文本识别时,不仅能准确划分出该文本中实体名称词所在的位置,并且还能准确的识别出该实体名称词所表征的实体,从而在使用最终所训练出的文本识别模型所得到的向量表示来完成下游业务时,能够保证下游业务的准确执行。
此外,通过本方案所训练出的文本识别模型其实是可以对多种不同语言的文本中所包括的实体进行识别的,这是因为在训练过程中可以引用多种不同语言的文本作为训练文本来对该文本识别模型进行训练,其中,这里的训练过程与上述模型训练的过程相同,在此不再赘述。
以上为本说明书的一个或多个实施的方法,基于同样的思路,本说明书还提供了相应的模型训练的装置,如图3所示。
图3为本说明书提供的一种模型训练的装置的示意图,包括:
获取模块301,用于获取训练文本;
第一确定模块302,用于将所述训练文本输入到所述文本识别模型中的第一编码层,以使所述第一编码层从所述训练文本中划分出各实体名称词,并确定所述每个实体名称词对应的特征向量;
第二确定模块303,用于针对划分出的每个实体名称词,通过所述第一编码层,确定该实体名称词所对应的特征向量与预设的实体向量表中的各真实实体词所对应的向量的相似度,并确定经过所述相似度加权后的该实体名称词的加权后向量;
第一识别模块304,用于将每个实体名称词的加权后向量输入到所述文本识别模型中的第二编码层,以使所述第二编码层基于每个实体名称词的加权后向量,来对所述训练文本中所包含的实体进行识别,得到最终识别结果;
训练模块305,用于根据所述文本识别模型从所述训练文本划分出的各实体名称词在所述训练文本中的位置与所述训练文本中所包含的真实实体名称词在所述训练文本中的位置之间的偏差,以及所述最终识别结果与所述训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练。
可选地,所述装置还包括:
第二识别模块306,用于在根据所述文本识别模型从所述训练文本划分出的各实体名称词在所述训练文本中的位置与所述训练文本中所包含的真实实体名称词在所述训练文本中的位置之间的偏差,以及所述最终识别结果与所述训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练之前,针对划分出的每个实体名称词,通过所述第一编码层,确定该实体名称词所对应的特征向量与预设的实体向量表中的各真实实体词所对应的向量的相似度,并根据所述相似度来对所述训练文本中所包含的实体进行识别,得到中间识别结果;
所述训练模块305具体用于,以最小化所述文本识别模型从所述训练文本划分出的各实体名称词在所述训练文本中的位置与所述训练文本中所包含的真实实体名称词在所述训练文本中的位置之间的偏差、最小化所述中间识别结果与所述训练文本中包含的真实实体之间的偏差以及最小化所述最终识别结果与所述训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练。
可选地,所述装置还包括:
遮盖模块307,用于在将所述训练文本输入到所述文本识别模型中的第一编码层之前,对所述训练文本中的部分单字进行遮盖,以将遮盖后的训练文本,重新作为训练文本;
所述第一确定模块302具体用于,将所述遮盖后的训练文本输入到所述文本识别模型中的第一编码层,以使所述第一编码层从所述遮盖后的训练文本中划分出各实体名称词,并确定所述每个实体名称词对应的特征向量。
可选地,所述装置还包括:
预测模块308,用于在根据所述文本识别模型从所述训练文本划分出的各实体名称词在所述训练文本中的位置与所述训练文本中所包含的真实实体名称词在所述训练文本中的位置之间的偏差,以及所述最终识别结果与所述训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练之前,通过输入到所述第二编码层的所述遮盖后的训练文本中每个词或字所对应的加权后向量,来预测被遮盖的文本内容,以得到预测结果;
所述训练模块305具体用于,以最小化所述文本识别模型从所述训练文本划分出的各实体名称词在所述训练文本中的位置与所述训练文本中所包含的真实实体名称词在所述训练文本中的位置之间的偏差、最小化所述预测结果与所述训练文本中为遮盖的实际文本内容之间的偏差,以及最小化所述最终识别结果与所述训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练。
可选的,所述第一识别模块304具体用于,将划分出的每个实体名称词的加权后向量输入到所述文本识别模型中的第二编码层,以使所述第二编码层基于划分出的每个实体名称词的加权后向量,确定每个实体名称词所对应的更新后加权后向量;针对划分出的每个实体名称词,通过所述第二编码层,确定该实体名称词所对应的更新后加权后向量与预设的实体向量表中的各真实实体词所对应的向量的相似度,并根据所述相似度来对所述训练文本中所包含的实体进行识别,得到最终识别结果。
可选的,所述第一确定模块302具体用于,将所述训练文本输入到所述文本识别模型中的第一编码层,以使所述第一编码层确定所述训练文本中确定每个单字所对应的标识符,并通过确定出的所述训练文本中每个单字所对应的标识符,从所述训练文本中划分出各实体名称词;其中,所述标识符包括起始标识符和终止标识符,所述起始标识符用于标识一个实体名称词中的第一个单字在所述训练文本中所处的位置,所述终止标识符于标识一个实体名称词中的最后一个单字在所述训练文本中所处的位置。
本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图1提供的一种模型训练的方法。
本说明书还提供了图4所示的一种对应于图1的电子设备的示意结构图。如图4所示,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所述的模型训练的方法。
当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device, PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (12)

1.一种模型训练的方法,其特征在于,包括:
获取训练文本;
将所述训练文本输入到所述文本识别模型中的第一编码层,以使所述第一编码层从所述训练文本中划分出各实体名称词,并确定所述每个实体名称词对应的特征向量;
针对划分出的每个实体名称词,通过所述第一编码层,确定该实体名称词所对应的特征向量与预设的实体向量表中的各真实实体词所对应的向量的相似度,并根据所述相似度来对所述训练文本中所包含的实体进行识别,得到中间识别结果,以及确定经过所述相似度加权后的该实体名称词的加权后向量;
将每个实体名称词的加权后向量输入到所述文本识别模型中的第二编码层,以使所述第二编码层基于每个实体名称词的加权后向量,来对所述训练文本中所包含的实体进行识别,得到最终识别结果;
根据所述文本识别模型从所述训练文本划分出的各实体名称词在所述训练文本中的位置与所述训练文本中所包含的真实实体名称词在所述训练文本中的位置之间的偏差,以及所述最终识别结果与所述训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练,其中,以最小化所述文本识别模型从所述训练文本划分出的各实体名称词在所述训练文本中的位置与所述训练文本中所包含的真实实体名称词在所述训练文本中的位置之间的偏差、最小化所述中间识别结果与所述训练文本中包含的真实实体之间的偏差以及最小化所述最终识别结果与所述训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练。
2.如权利要求1所述的方法,其特征在于,在将所述训练文本输入到所述文本识别模型中的第一编码层之前,所述方法还包括:
对所述训练文本中的部分单字进行遮盖,以将遮盖后的训练文本,重新作为训练文本;
将所述训练文本输入到所述文本识别模型中的第一编码层,以使所述第一编码层从所述训练文本中划分出各实体名称词,并确定所述每个实体名称词对应的特征向量,具体包括:
将所述遮盖后的训练文本输入到所述文本识别模型中的第一编码层,以使所述第一编码层从所述遮盖后的训练文本中划分出各实体名称词,并确定所述每个实体名称词对应的特征向量。
3.如权利要求2所述的方法,其特征在于,在根据所述文本识别模型从所述训练文本划分出的各实体名称词在所述训练文本中的位置与所述训练文本中所包含的真实实体名称词在所述训练文本中的位置之间的偏差,以及所述最终识别结果与所述训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练之前,所述方法还包括:
通过输入到所述第二编码层的所述遮盖后的训练文本中每个词或字所对应的加权后向量,来预测被遮盖的文本内容,以得到预测结果;
根据所述文本识别模型从所述训练文本划分出的各实体名称词在所述训练文本中的位置与所述训练文本中所包含的真实实体名称词在所述训练文本中的位置之间的偏差,以及所述最终识别结果与所述训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练,具体包括:
以最小化所述文本识别模型从所述训练文本划分出的各实体名称词在所述训练文本中的位置与所述训练文本中所包含的真实实体名称词在所述训练文本中的位置之间的偏差、最小化所述预测结果与所述训练文本中为遮盖的实际文本内容之间的偏差,以及最小化所述最终识别结果与所述训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练。
4.如权利要求1所述的方法,其特征在于,将每个实体名称词的加权后向量输入到所述文本识别模型中的第二编码层,以使所述第二编码层基于每个实体名称词的加权后向量,来对所述训练文本中所包含的实体进行识别,得到最终识别结果,具体包括:
将划分出的每个实体名称词的加权后向量输入到所述文本识别模型中的第二编码层,以使所述第二编码层基于划分出的每个实体名称词的加权后向量,确定每个实体名称词所对应的更新后加权后向量;
针对划分出的每个实体名称词,通过所述第二编码层,确定该实体名称词所对应的更新后加权后向量与预设的实体向量表中的各真实实体词所对应的向量的相似度,并根据所述相似度来对所述训练文本中所包含的实体进行识别,得到最终识别结果。
5.如权利要求1所述的方法,其特征在于,将所述训练文本输入到所述文本识别模型中的第一编码层,以使所述第一编码层从所述训练文本中划分出各实体名称词,具体包括:
将所述训练文本输入到所述文本识别模型中的第一编码层,以使所述第一编码层确定所述训练文本中确定每个单字所对应的标识符,并通过确定出的所述训练文本中每个单字所对应的标识符,从所述训练文本中划分出各实体名称词;
其中,所述标识符包括起始标识符和终止标识符,所述起始标识符用于标识一个实体名称词中的第一个单字在所述训练文本中所处的位置,所述终止标识符于标识一个实体名称词中的最后一个单字在所述训练文本中所处的位置。
6.一种模型训练的装置,其特征在于,包括:
获取模块,用于获取训练文本;
第一确定模块,用于将所述训练文本输入到所述文本识别模型中的第一编码层,以使所述第一编码层从所述训练文本中划分出各实体名称词,并确定所述每个实体名称词对应的特征向量;
第二确定模块,用于针对划分出的每个实体名称词,通过所述第一编码层,确定该实体名称词所对应的特征向量与预设的实体向量表中的各真实实体词所对应的向量的相似度,并确定经过所述相似度加权后的该实体名称词的加权后向量;
第二识别模块,用于针对划分出的每个实体名称词,通过所述第一编码层,确定该实体名称词所对应的特征向量与预设的实体向量表中的各真实实体词所对应的向量的相似度,并根据所述相似度来对所述训练文本中所包含的实体进行识别,得到中间识别结果;
第一识别模块,用于将每个实体名称词的加权后向量输入到所述文本识别模型中的第二编码层,以使所述第二编码层基于每个实体名称词的加权后向量,来对所述训练文本中所包含的实体进行识别,得到最终识别结果;
训练模块,用于根据所述文本识别模型从所述训练文本划分出的各实体名称词在所述训练文本中的位置与所述训练文本中所包含的真实实体名称词在所述训练文本中的位置之间的偏差,以及所述最终识别结果与所述训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练,其中,以最小化所述文本识别模型从所述训练文本划分出的各实体名称词在所述训练文本中的位置与所述训练文本中所包含的真实实体名称词在所述训练文本中的位置之间的偏差、最小化所述中间识别结果与所述训练文本中包含的真实实体之间的偏差以及最小化所述最终识别结果与所述训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:遮盖模块,其中,所述遮盖模块用于在将所述训练文本输入到所述文本识别模型中的第一编码层之前,对所述训练文本中的部分单字进行遮盖,以将遮盖后的训练文本,重新作为训练文本;所述第一识别模块具体用于,将所述遮盖后的训练文本输入到所述文本识别模型中的第一编码层,以使所述第一编码层从所述遮盖后的训练文本中划分出各实体名称词,并确定所述每个实体名称词对应的特征向量。
8.如权利要求7所述的装置,其特征在于,所述装置还包括:预测模块,其中,所述预测模块用于在根据所述文本识别模型从所述训练文本划分出的各实体名称词在所述训练文本中的位置与所述训练文本中所包含的真实实体名称词在所述训练文本中的位置之间的偏差,以及所述最终识别结果与所述训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练之前,通过输入到所述第二编码层的所述遮盖后的训练文本中每个词或字所对应的加权后向量,来预测被遮盖的文本内容,以得到预测结果;
所述训练模块具体用于,以最小化所述文本识别模型从所述训练文本划分出的各实体名称词在所述训练文本中的位置与所述训练文本中所包含的真实实体名称词在所述训练文本中的位置之间的偏差、最小化所述预测结果与所述训练文本中为遮盖的实际文本内容之间的偏差,以及最小化所述最终识别结果与所述训练文本中包含的真实实体之间的偏差,对所述文本识别模型进行训练。
9.如权利要求6所述的装置,其特征在于,所述第一识别模块具体用于,将划分出的每个实体名称词的加权后向量输入到所述文本识别模型中的第二编码层,以使所述第二编码层基于划分出的每个实体名称词的加权后向量,确定每个实体名称词所对应的更新后加权后向量;针对划分出的每个实体名称词,通过所述第二编码层,确定该实体名称词所对应的更新后加权后向量与预设的实体向量表中的各真实实体词所对应的向量的相似度,并根据所述相似度来对所述训练文本中所包含的实体进行识别,得到最终识别结果。
10.如权利要求6所述的装置,其特征在于,所述第一确定模块具体用于,将所述训练文本输入到所述文本识别模型中的第一编码层,以使所述第一编码层确定所述训练文本中确定每个单字所对应的标识符,并通过确定出的所述训练文本中每个单字所对应的标识符,从所述训练文本中划分出各实体名称词;其中,所述标识符包括起始标识符和终止标识符,所述起始标识符用于标识一个实体名称词中的第一个单字在所述训练文本中所处的位置,所述终止标识符于标识一个实体名称词中的最后一个单字在所述训练文本中所处的位置。
11.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~5任一项所述的方法。
12.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~5任一项所述的方法。
CN202310663586.9A 2023-06-06 2023-06-06 一种模型训练的方法、装置、存储介质及电子设备 Active CN116384515B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310663586.9A CN116384515B (zh) 2023-06-06 2023-06-06 一种模型训练的方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310663586.9A CN116384515B (zh) 2023-06-06 2023-06-06 一种模型训练的方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN116384515A CN116384515A (zh) 2023-07-04
CN116384515B true CN116384515B (zh) 2023-09-01

Family

ID=86977307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310663586.9A Active CN116384515B (zh) 2023-06-06 2023-06-06 一种模型训练的方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN116384515B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299458A (zh) * 2018-09-12 2019-02-01 广州多益网络股份有限公司 实体识别方法、装置、设备及存储介质
WO2019105134A1 (zh) * 2017-11-30 2019-06-06 阿里巴巴集团控股有限公司 词向量处理方法、装置以及设备
EP3767516A1 (en) * 2019-07-18 2021-01-20 Ricoh Company, Ltd. Named entity recognition method, apparatus, and computer-readable recording medium
CN113177412A (zh) * 2021-04-05 2021-07-27 北京智慧星光信息技术有限公司 基于bert的命名实体识别方法、系统、电子设备及存储介质
CN113221555A (zh) * 2021-05-07 2021-08-06 支付宝(杭州)信息技术有限公司 一种基于多任务模型的关键词识别方法、装置及设备
CN113344098A (zh) * 2021-06-22 2021-09-03 北京三快在线科技有限公司 一种模型训练方法及装置
CN113887227A (zh) * 2021-09-15 2022-01-04 北京三快在线科技有限公司 一种模型训练与实体识别方法及装置
WO2022078346A1 (zh) * 2020-10-13 2022-04-21 深圳壹账通智能科技有限公司 文本意图识别方法、装置、电子设备及存储介质
CN114444496A (zh) * 2021-04-23 2022-05-06 北京智慧星光信息技术有限公司 短文本实体相关性识别方法、系统、电子设备及存储介质
CN115545035A (zh) * 2022-11-29 2022-12-30 城云科技(中国)有限公司 一种文本实体识别模型及其构建方法、装置及应用
CN116151355A (zh) * 2023-04-19 2023-05-23 之江实验室 一种模型训练和业务执行的方法、装置、介质及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11790174B2 (en) * 2019-12-27 2023-10-17 Ubtech Robotics Corp Ltd Entity recognition method and apparatus

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019105134A1 (zh) * 2017-11-30 2019-06-06 阿里巴巴集团控股有限公司 词向量处理方法、装置以及设备
CN109299458A (zh) * 2018-09-12 2019-02-01 广州多益网络股份有限公司 实体识别方法、装置、设备及存储介质
EP3767516A1 (en) * 2019-07-18 2021-01-20 Ricoh Company, Ltd. Named entity recognition method, apparatus, and computer-readable recording medium
WO2022078346A1 (zh) * 2020-10-13 2022-04-21 深圳壹账通智能科技有限公司 文本意图识别方法、装置、电子设备及存储介质
CN113177412A (zh) * 2021-04-05 2021-07-27 北京智慧星光信息技术有限公司 基于bert的命名实体识别方法、系统、电子设备及存储介质
CN114444496A (zh) * 2021-04-23 2022-05-06 北京智慧星光信息技术有限公司 短文本实体相关性识别方法、系统、电子设备及存储介质
CN113221555A (zh) * 2021-05-07 2021-08-06 支付宝(杭州)信息技术有限公司 一种基于多任务模型的关键词识别方法、装置及设备
CN113344098A (zh) * 2021-06-22 2021-09-03 北京三快在线科技有限公司 一种模型训练方法及装置
CN113887227A (zh) * 2021-09-15 2022-01-04 北京三快在线科技有限公司 一种模型训练与实体识别方法及装置
CN115545035A (zh) * 2022-11-29 2022-12-30 城云科技(中国)有限公司 一种文本实体识别模型及其构建方法、装置及应用
CN116151355A (zh) * 2023-04-19 2023-05-23 之江实验室 一种模型训练和业务执行的方法、装置、介质及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于混合神经网络的命名实体识别与共指消解联合模型;郜成胜;张君福;李伟平;赵文;张世琨;;电子学报(03);全文 *

Also Published As

Publication number Publication date
CN116384515A (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN111881973A (zh) 一种样本选择方法、装置、存储介质及电子设备
CN113221555B (zh) 一种基于多任务模型的关键词识别方法、装置及设备
CN112417093B (zh) 一种模型训练的方法及装置
CN112308113A (zh) 一种基于半监督的目标识别方法、设备及介质
CN111458030B (zh) 一种红外人体测温的校准方法以及装置
CN115203394A (zh) 一种模型训练的方法、业务执行的方法及装置
CN116127305A (zh) 一种模型训练的方法、装置、存储介质及电子设备
CN116308738B (zh) 一种模型训练的方法、业务风控的方法及装置
CN117409466A (zh) 一种基于多标签控制的三维动态表情生成方法及装置
CN116384515B (zh) 一种模型训练的方法、装置、存储介质及电子设备
CN116402113A (zh) 一种任务执行的方法、装置、存储介质及电子设备
CN115130621A (zh) 一种模型训练方法、装置、存储介质及电子设备
CN116230146A (zh) 数据处理方法、icd编码模型的训练方法及相关设备
CN115862675B (zh) 一种情感识别方法、装置、设备及存储介质
CN116434787B (zh) 一种语音情感识别的方法、装置、存储介质及电子设备
CN115017915B (zh) 一种模型训练、任务执行的方法及装置
CN117034942B (zh) 一种命名实体识别方法、装置、设备及可读存储介质
CN117332282B (zh) 一种基于知识图谱的事件匹配的方法及装置
CN115827880B (zh) 一种基于情感分类的业务执行方法及装置
CN116501852B (zh) 一种可控对话模型训练方法、装置、存储介质及电子设备
CN114861665B (zh) 一种强化学习模型训练以及确定数据关系的方法及装置
CN116340852B (zh) 一种模型训练、业务风控的方法及装置
CN116306589B (zh) 一种急救场景的医疗文本纠错及智能提取的方法及装置
CN116578877A (zh) 一种模型训练及二次优化打标的风险识别的方法及装置
CN117520850A (zh) 一种模型训练方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant