CN115496067A - 一种实体识别模型训练方法及装置、实体识别方法及装置 - Google Patents
一种实体识别模型训练方法及装置、实体识别方法及装置 Download PDFInfo
- Publication number
- CN115496067A CN115496067A CN202211067513.5A CN202211067513A CN115496067A CN 115496067 A CN115496067 A CN 115496067A CN 202211067513 A CN202211067513 A CN 202211067513A CN 115496067 A CN115496067 A CN 115496067A
- Authority
- CN
- China
- Prior art keywords
- entity
- sample
- iteration
- text representation
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Character Discrimination (AREA)
Abstract
本申请提供一种实体识别模型训练方法及装置、实体识别方法及装置,应用于数据处理技术领域,其中,实体识别模型训练方法包括:获取本轮迭代对应的样本实体集;其中,本轮迭代对应的样本实体集根据第一文本表示以及第二文本表示对上轮迭代对应的样本实体集更新得到,第一文本表示为本轮迭代对应的初始实体集中的各个初始实体的文本表示,第二文本表示为上轮迭代对应的样本实体集中的各个样本实体的文本表示;根据本轮迭代对应的样本实体集对上轮迭代对应的实体识别模型进行训练,得到本轮迭代对应的实体识别模型。因此,在本申请实施例中,训练使用的样本数据无需人工标注便可以自动得到,从而可以减少训练过程中人工标注造成的成本。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种实体识别模型训练方法及装置、实体识别方法及装置。
背景技术
命名实体识别是自然语言处理领域的热点研究方向之一,目的是从非结构化文本中识别出所需的实体和类型,其识别得到的结果可以应用于实体关系抽取、知识图谱构建等下游任务。在现有技术中,一般采用有监督的识别方法,但是采用该种方法,在对实体识别模型进行训练时需要大量人工标注的、具有领域特定性的语料和标签,导致训练成本较高且训练得到的实体识别模型的应用场景较少。
发明内容
本申请实施例的目的在于提供一种实体识别模型训练方法及装置、实体识别方法及装置,用以解决现有技术中对实体识别模型进行训练的训练成本较高且训练得到的实体识别模型的应用场景较少的技术问题。
第一方面,本申请实施例提供一种实体识别模型训练方法,包括:获取本轮迭代对应的样本实体集;其中,所述本轮迭代对应的样本实体集根据第一文本表示以及第二文本表示对上轮迭代对应的样本实体集更新得到,所述第一文本表示为所述本轮迭代对应的初始实体集中的各个初始实体的文本表示,所述第二文本表示为所述上轮迭代对应的样本实体集中的各个样本实体的文本表示;根据所述本轮迭代对应的样本实体集对上轮迭代对应的实体识别模型进行训练,得到本轮迭代对应的实体识别模型。在上述方案中,通过初始实体集中的各个初始实体对应的文本表示从初始实体集中筛选得到样本实体集,并利用上述筛选得到的样本实体集对实体识别模型进行训练。因此,在本申请实施例中,训练使用的样本数据无需人工标注便可以自动得到,从而可以减少训练过程中人工标注造成的成本。此外,本申请实施例得到的训练后的实体识别模型无需受特定领域的标签的限制,可以适用于多种应用场景。
在可选的实施方式中,所述获取本轮迭代对应的样本实体集,包括:获取所述本轮迭代对应的初始实体集;将所述本轮迭代对应的初始实体集以及所述上轮迭代对应的样本实体集输入上轮迭代对应的文本表示模型中,分别得到所述本轮迭代对应的初始实体集中各个初始实体对应的第一文本表示以及所述上轮迭代对应的样本实体集中各个样本实体对应的第二文本表示;根据所述第一文本表示以及所述第二文本表示对所述上轮迭代对应的样本实体集进行更新,得到所述本轮迭代对应的样本实体集。在上述方案中,由于初始实体集中不一定都是正确标记的结果,因此可以通过文本表示模型可以从初始实体集中筛选得到准确度较高的样本实体集。因此,在本申请实施例中,训练使用的样本数据无需人工标注便可以自动得到,从而可以减少训练过程中人工标注造成的成本。此外,本申请实施例得到的训练后的实体识别模型无需受特定领域的标签的限制,可以适用于多种应用场景。
在可选的实施方式中,所述根据所述第一文本表示以及所述第二文本表示对所述上轮迭代对应的样本实体集进行更新,得到所述本轮迭代对应的样本实体集,包括:针对所述本轮迭代对应的初始实体集中的一个初始实体以及所述上轮迭代对应的样本实体集中与该初始实体的类别相同的样本实体子集,根据该初始实体对应的第一文本表示与该样本实体子集对应的第二文本表示计算该初始实体对应的实体置信度;若所述实体置信度大于实体阈值,将该初始实体加入所述上轮迭代对应的样本实体集中。在上述方案中,可以通过计算初始实体的实体置信度,并将上述实体置信度与实体阈值进行比较,通过对样本实体集进行更新,以得到准确度更高的样本实体集。
在可选的实施方式中,所述根据该初始实体对应的第一文本表示与该样本实体子集对应的第二文本表示计算该初始实体对应的实体置信度,包括:计算该初始实体对应的第一文本表示与该样本实体子集中的各个样本实体对应的第二文本表示之间的多个余弦相似度;将多个预先相似度中的最大值确定为所述实体置信度。在上述方案中,可以通过计算每个初始实体的局部分数作为实体置信度,并基于实体置信度筛选实体集中的噪声数据,得到准确度更高的样本实体集。
在可选的实施方式中,所述根据该初始实体对应的第一文本表示与该样本实体子集对应的第二文本表示计算该初始实体对应的实体置信度,包括:计算该初始实体对应的第一文本表示与该样本实体子集中的各个样本实体对应的第二文本表示之间的多个余弦相似度;将多个余弦相似度中的最大值确定为该初始实体对应的局部分数;计算该初始实体对应的第一文本表示与该样本实体子集中的各个样本实体对应的第二文本表示之间的全局分数;根据所述局部分数以及所述全局分数计算所述实体置信度。在上述方案中,可以通过计算每个初始实体的局部分数以及全局分数作为实体置信度,并基于实体置信度筛选实体集中的噪声数据,得到准确度更高的样本实体集。
在可选的实施方式中,所述计算该初始实体对应的第一文本表示与该样本实体子集中的各个样本实体对应的第二文本表示之间的全局分数,包括:计算该样本实体子集中部分样本实体对应的第二文本表示的文本表示平均值;计算所述文本表示平均值与该初始实体对应的第一文本表示之间的余弦相似度,得到所述全局分数。在上述方案中,由于局部分数是基于样本实体集中的单个实例来估计的,因此,可以进一步计算基于样本实体集整体来估计的全局分数,以得到准确度更高的样本实体集。
在可选的实施方式中,所述根据所述局部分数以及所述全局分数计算所述实体置信度,包括:计算所述局部分数以及所述全局分数的几何平均值,得到所述实体置信度。在上述方案中,为了保证样本实体集中新样本实例的探索能力和可靠性,可以通过计算局部分数与全局分数的几何平均值得到某一个初始实体的实体置信度,以得到准确度更高的样本实体集。
在可选的实施方式中,在所述将该初始实体加入所述上轮迭代对应的样本实体集中之后,所述方法还包括:根据所述本轮迭代对应的样本实体集中的样本实体对应的实体置信度,对所述实体阈值进行更新。在上述方案中,由于不同迭代轮次中不同类别的实体阈值可能不同,因此可以设置一个可动态调整的实体阈值,以得到准确度更高的样本实体集。
在可选的实施方式中,在所述根据所述第一文本表示以及所述第二文本表示对所述上轮迭代对应的样本实体集进行更新,得到所述本轮迭代对应的样本实体集之后,所述方法还包括:根据所述本轮迭代对应的样本实体集对所述上轮迭代对应的文本表示模型进行训练,得到本轮迭代对应的文本表示模型。在上述方案中,可以利用更新后的样本实体集对文本表示模型进行更新,以用于下一轮的样本实体集的更新,从而可以得到准确度更高的样本实体集。
在可选的实施方式中,用于训练所述文本表示模型的损失函数包括:对比学习损失函数,和/或,掩码语言模型损失函数。在上述方案中,可以通过对比学习损失函数以及掩码语言模型损失函数来对文本表示模型进行更新,从而可以得到准确度更高的样本实体集。
在可选的实施方式中,所述对比学习损失函数为:
其中,N为样本个数,k为同类的正样本,vi表示样本i的文本表示,为随机选择的负样例,τ为温度系数,Ii≠j表示样本向量不与自身进行计算。在上述方案中,可以引入对比学习损失,增强文本表示,使得实体间同类别相互聚拢,扩大不同类别间的差异,从而得到性能更优的文本表示模型。
在可选的实施方式中,所述掩码语言模型损失函数为:
其中,pij(xi)为第i个词语xi对于第j个标签的概率,yij是i个词语xi的真实标签,M表示句子中词语数量,L表示标签个数。在上述方案中,可以引入掩码语言模型损失,提高文本表示模型在目标数据上的学习能力,从而得到性能更优的文本表示模型。
在可选的实施方式中,所述获取所述本轮迭代对应的初始实体集,包括:从本轮迭代对应的未标记数据中基于组合逻辑规则筛选得到本轮迭代对应的候选实体集;基于本轮迭代对应的标记规则对所述本轮迭代对应的候选实体集中的候选实体进行标记,得到所述本轮迭代对应的初始实体集。在上述方案中,引入由简单规则组合的组合逻辑规则对未标记数据进行筛选,从而提高边界检测的精度,然后利用标记规则对候选实体进行标记,得到初始实体集。
在可选的实施方式中,在所述根据所述本轮迭代对应的样本实体集对上轮迭代对应的实体识别模型进行训练,得到本轮迭代对应的实体识别模型之后,所述方法还包括:将所述本轮迭代对应的未标记数据输入所述本轮迭代对应的实体识别模型中,得到所述本轮迭代对应的实体识别模型输出的实体及对应的各个类别的概率值;根据所述概率值对所述本轮迭代对应的标记规则以及本轮迭代对应的未标记数据进行更新,得到下轮迭代对应的标记规则以及下轮迭代对应的未标记数据。在上述方案中,可以利用训练得到的实体识别模型对未标记数据以及标记规则进行更新,从而提高下一轮训练得到的实体识别模型的性能。
在可选的实施方式中,在所述根据所述本轮迭代对应的样本实体集对上轮迭代对应的实体识别模型进行训练,得到本轮迭代对应的实体识别模型之后,所述方法还包括:对训练得到的实体识别模型进行模型蒸馏,得到对应的轻型实体识别模型。在上述方案中,可以将训练得到的实体识别模型作为教师模型,基于模型蒸馏将教师模型上的知识迁移到另一个轻量级的单模型上,通过学生模型学习老师模型的泛化能力,从而得到保证性能且结构更简单的轻型实体识别模型。
第二方面,本申请实施例提供一种实体识别方法,包括:获取待识别文本;将所述待识别文本输入预先训练好的实体识别模型中,得到所述实体识别模型输出的实体及对应的实体类别;其中,所述实体识别模型为利用如第一方面所述的实体识别模型训练方法训练得到的。在上述方案中,通过初始实体集中的各个初始实体对应的文本表示从初始实体集中筛选得到样本实体集,并利用上述筛选得到的样本实体集对实体识别模型进行训练。因此,在本申请实施例中,训练使用的样本数据无需人工标注便可以自动得到,从而可以减少训练过程中人工标注造成的成本。此外,本申请实施例得到的训练后的实体识别模型无需受特定领域的标签的限制,可以适用于多种应用场景。
第三方面,本申请实施例提供一种实体识别模型训练装置,包括:第一获取模块,用于获取本轮迭代对应的样本实体集;其中,所述本轮迭代对应的样本实体集根据第一文本表示以及第二文本表示对上轮迭代对应的样本实体集更新得到,所述第一文本表示为所述本轮迭代对应的初始实体集中的各个初始实体的文本表示,所述第二文本表示为所述上轮迭代对应的样本实体集中的各个样本实体的文本表示;第一训练模块,用于根据所述本轮迭代对应的样本实体集对上轮迭代对应的实体识别模型进行训练,得到本轮迭代对应的实体识别模型。在上述方案中,通过初始实体集中的各个初始实体对应的文本表示从初始实体集中筛选得到样本实体集,并利用上述筛选得到的样本实体集对实体识别模型进行训练。因此,在本申请实施例中,训练使用的样本数据无需人工标注便可以自动得到,从而可以减少训练过程中人工标注造成的成本。此外,本申请实施例得到的训练后的实体识别模型无需受特定领域的标签的限制,可以适用于多种应用场景。
在可选的实施方式中,所述第一获取模块具体用于:获取所述本轮迭代对应的初始实体集;将所述本轮迭代对应的初始实体集以及所述上轮迭代对应的样本实体集输入上轮迭代对应的文本表示模型中,分别得到所述本轮迭代对应的初始实体集中各个初始实体对应的第一文本表示以及所述上轮迭代对应的样本实体集中各个样本实体对应的第二文本表示;根据所述第一文本表示以及所述第二文本表示对所述上轮迭代对应的样本实体集进行更新,得到所述本轮迭代对应的样本实体集。在上述方案中,由于初始实体集中不一定都是正确标记的结果,因此可以通过文本表示模型可以从初始实体集中筛选得到准确度较高的样本实体集。因此,在本申请实施例中,训练使用的样本数据无需人工标注便可以自动得到,从而可以减少训练过程中人工标注造成的成本。此外,本申请实施例得到的训练后的实体识别模型无需受特定领域的标签的限制,可以适用于多种应用场景。
在可选的实施方式中,所述第一获取模块还用于:针对所述本轮迭代对应的初始实体集中的一个初始实体以及所述上轮迭代对应的样本实体集中与该初始实体的类别相同的样本实体子集,根据该初始实体对应的第一文本表示与该样本实体子集对应的第二文本表示计算该初始实体对应的实体置信度;若所述实体置信度大于实体阈值,将该初始实体加入所述上轮迭代对应的样本实体集中。在上述方案中,可以通过计算初始实体的实体置信度,并将上述实体置信度与实体阈值进行比较,通过对样本实体集进行更新,以得到准确度更高的样本实体集。
在可选的实施方式中,所述第一获取模块还用于:计算该初始实体对应的第一文本表示与该样本实体子集中的各个样本实体对应的第二文本表示之间的多个余弦相似度;将多个预先相似度中的最大值确定为所述实体置信度。在上述方案中,可以通过计算每个初始实体的局部分数作为实体置信度,并基于实体置信度筛选实体集中的噪声数据,得到准确度更高的样本实体集。
在可选的实施方式中,所述第一获取模块还用于:计算该初始实体对应的第一文本表示与该样本实体子集中的各个样本实体对应的第二文本表示之间的多个余弦相似度;将多个余弦相似度中的最大值确定为该初始实体对应的局部分数;计算该初始实体对应的第一文本表示与该样本实体子集中的各个样本实体对应的第二文本表示之间的全局分数;根据所述局部分数以及所述全局分数计算所述实体置信度。在上述方案中,可以通过计算每个初始实体的局部分数以及全局分数作为实体置信度,并基于实体置信度筛选实体集中的噪声数据,得到准确度更高的样本实体集。
在可选的实施方式中,所述第一获取模块还用于:计算该样本实体子集中部分样本实体对应的第二文本表示的文本表示平均值;计算所述文本表示平均值与该初始实体对应的第一文本表示之间的余弦相似度,得到所述全局分数。在上述方案中,由于局部分数是基于样本实体集中的单个实例来估计的,因此,可以进一步计算基于样本实体集整体来估计的全局分数,以得到准确度更高的样本实体集。
在可选的实施方式中,所述第一获取模块还用于:计算所述局部分数以及所述全局分数的几何平均值,得到所述实体置信度。在上述方案中,为了保证样本实体集中新样本实例的探索能力和可靠性,可以通过计算局部分数与全局分数的几何平均值得到某一个初始实体的实体置信度,以得到准确度更高的样本实体集。
在可选的实施方式中,所述实体识别模型训练装置还包括:第一更新模块,用于根据所述本轮迭代对应的样本实体集中的样本实体对应的实体置信度,对所述实体阈值进行更新。在上述方案中,由于不同迭代轮次中不同类别的实体阈值可能不同,因此可以设置一个可动态调整的实体阈值,以得到准确度更高的样本实体集。
在可选的实施方式中,所述实体识别模型训练装置还包括:第二训练模块,用于根据所述本轮迭代对应的样本实体集对所述上轮迭代对应的文本表示模型进行训练,得到本轮迭代对应的文本表示模型。在上述方案中,可以利用更新后的样本实体集对文本表示模型进行更新,以用于下一轮的样本实体集的更新,从而可以得到准确度更高的样本实体集。
在可选的实施方式中,用于训练所述文本表示模型的损失函数包括:对比学习损失函数,和/或,掩码语言模型损失函数。在上述方案中,可以通过对比学习损失函数以及掩码语言模型损失函数来对文本表示模型进行更新,从而可以得到准确度更高的样本实体集。
在可选的实施方式中,所述对比学习损失函数为:
其中,N为样本个数,k为同类的正样本,vi表示样本i的文本表示,为随机选择的负样例,τ为温度系数,Ii≠j表示样本向量不与自身进行计算。在上述方案中,可以引入对比学习损失,增强文本表示,使得实体间同类别相互聚拢,扩大不同类别间的差异,从而得到性能更优的文本表示模型。
在可选的实施方式中,所述掩码语言模型损失函数为:
其中,pij(xi)为第i个词语xi对于第j个标签的概率,yij是i个词语xi的真实标签,M表示句子中词语数量,L表示标签个数。在上述方案中,可以引入掩码语言模型损失,提高文本表示模型在目标数据上的学习能力,从而得到性能更优的文本表示模型。
在可选的实施方式中,所述第一获取模块还用于:从本轮迭代对应的未标记数据中基于组合逻辑规则筛选得到本轮迭代对应的候选实体集;基于本轮迭代对应的标记规则对所述本轮迭代对应的候选实体集中的候选实体进行标记,得到所述本轮迭代对应的初始实体集。在上述方案中,引入由简单规则组合的组合逻辑规则对未标记数据进行筛选,从而提高边界检测的精度,然后利用标记规则对候选实体进行标记,得到初始实体集。
在可选的实施方式中,所述实体识别模型训练装置还包括:第二识别模块,用于将所述本轮迭代对应的未标记数据输入所述本轮迭代对应的实体识别模型中,得到所述本轮迭代对应的实体识别模型输出的实体及对应的各个类别的概率值;第二更新模块,用于根据所述概率值对所述本轮迭代对应的标记规则以及本轮迭代对应的未标记数据进行更新,得到下轮迭代对应的标记规则以及下轮迭代对应的未标记数据。在上述方案中,可以利用训练得到的实体识别模型对未标记数据以及标记规则进行更新,从而提高下一轮训练得到的实体识别模型的性能。
在可选的实施方式中,所述实体识别模型训练装置还包括:蒸馏模块,用于对训练得到的实体识别模型进行模型蒸馏,得到对应的轻型实体识别模型。在上述方案中,可以将训练得到的实体识别模型作为教师模型,基于模型蒸馏将教师模型上的知识迁移到另一个轻量级的单模型上,通过学生模型学习老师模型的泛化能力,从而得到保证性能且结构更简单的轻型实体识别模型。
第四方面,本申请实施例提供一种实体识别装置,包括:第二获取模块,用于获取待识别文本;第一识别模块,用于将所述待识别文本输入预先训练好的实体识别模型中,得到所述实体识别模型输出的实体及对应的实体类别;其中,所述实体识别模型为利用如第一方面所述的实体识别模型训练方法训练得到的。在上述方案中,通过初始实体集中的各个初始实体对应的文本表示从初始实体集中筛选得到样本实体集,并利用上述筛选得到的样本实体集对实体识别模型进行训练。因此,在本申请实施例中,训练使用的样本数据无需人工标注便可以自动得到,从而可以减少训练过程中人工标注造成的成本。此外,本申请实施例得到的训练后的实体识别模型无需受特定领域的标签的限制,可以适用于多种应用场景。
第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序指令,所述计算机程序指令被处理器读取并运行时,执行如第一方面所述的实体识别模型训练方法或者如第二方面所述的实体识别方法。
第六方面,本申请实施例提供一种电子设备,包括:处理器、存储器和总线;所述处理器和所述存储器通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的计算机程序指令,所述处理器调用所述计算机程序指令能够执行如第一方面所述的实体识别模型训练方法或者如第二方面所述的实体识别方法。
第七方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序指令,所述计算机程序指令被计算机运行时,使所述计算机执行如第一方面所述的实体识别模型训练方法或者如第二方面所述的实体识别方法。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举本申请实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种实体识别模型训练方法的流程图;
图2为本申请实施例提供的一种实体识别模型训练装置的结构框图;
图3为本申请实施例提供的一种实体识别装置的结构框图;
图4为本申请实施例提供的一种电子设备的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
请参照图1,图1为本申请实施例提供的一种实体识别模型训练方法的流程图,该实体识别模型训练方法可以包括如下步骤:
步骤S101:获取本轮迭代对应的样本实体集;其中,本轮迭代对应的样本实体集根据第一文本表示以及第二文本表示对上轮迭代对应的样本实体集更新得到,第一文本表示为本轮迭代对应的初始实体集中的各个初始实体的文本表示,第二文本表示为上轮迭代对应的样本实体集中的各个样本实体的文本表示。
步骤S102:根据本轮迭代对应的样本实体集对上轮迭代对应的实体识别模型进行训练,得到本轮迭代对应的实体识别模型。
具体的,本申请实施例提供的实体识别模型训练方法是一个不断迭代的过程,每一轮迭代都可以得到一个对应的实体识别模型。
可以理解的是,本申请实施例对迭代的结束条件不作具体的限定,本领域技术人员可以根据实际情况进行合适的调整。举例来说,当迭代次数大于次数阈值时,可以停止迭代;或者,当迭代时间大于时间阈值时,可以停止迭代;或者,当实体识别模型的性能满足性能要求时,可以停止迭代等。
此外,迭代过程中的实体识别模型与迭代结束后得到的实体识别模型均可以用于实体识别,本申请实施例对此同样不作具体的限定。
需要说明的是,为了便于叙述,在本申请实施例,仅对一轮迭代过程进行介绍;可以理解的是,其他轮次的迭代过程与后续实施例中介绍的迭代过程类似,因此不再赘述。
在上述步骤S101中,电子设备可以获取本轮迭代对应的样本实体集。其中,样本实体集包括多个样本实体以及与每个样本实体对应的标记结果;上述标记结果表征每个样本实体属于的实体类别,实体类别包括人名、地名、机构名、专有名词等。
可以理解的是,电子设备获取上述样本实体集的方式有多种,本申请实施例对此不作具体的限定,本领域技术人员可以根据实际情况进行合适的调整。举例来说,电子设备可以接收其他设备发送的样本实体集;或者,电子设备可以从云端或者本地读取预先存储的样本实体集;或者,电子设备可以自己生成样本实体集等。
以电子设备自己生成样本实体集为例,本轮迭代对应的样本实体集可以根据第一文本表示以及第二文本表示对上轮迭代对应的样本实体集更新得到。其中,第一文本表示为本轮迭代对应的初始实体集中的各个初始实体的文本表示,而第二文本表示为上轮迭代对应的样本实体集中的各个样本实体的文本表示。
在上述步骤S102中,电子设备可以根据本轮迭代对应的样本实体集对上轮迭代对应的实体识别模型进行训练,得到本轮迭代对应的实体识别模型。可以理解的是,上述本轮迭代对应的实体识别模型可以用于其他用途,也可以继续进行下一轮的迭代更新。
在上述方案中,通过初始实体集中的各个初始实体对应的文本表示从初始实体集中筛选得到样本实体集,并利用上述筛选得到的样本实体集对实体识别模型进行训练。因此,在本申请实施例中,训练使用的样本数据无需人工标注便可以自动得到,从而可以减少训练过程中人工标注造成的成本。此外,本申请实施例得到的训练后的实体识别模型无需受特定领域的标签的限制,可以适用于多种应用场景。
进一步的,在上述实施例的基础上,下面对本申请实施例提供的一种实体识别模型进行介绍。
具体的,可以将实体识别视为一个跨度标记问题,即将每个跨度表示为一个固定长度的嵌入,再对嵌入进行标签预测。
在本申请实施例提供的实体识别模型中,给定一个跨度及其对应的句子,可以利用预训练过的Bert模型初始化该句子中的所有词语;然后应用Bi-LSTM和自注意力层,得到该句子的上下文嵌入;再通过连接两个组件来计算跨度嵌入:一个是内容表示,计算跨度中所有词语嵌入的加权平均值一个是边界表示,连接跨度的开始和结束位置的嵌入表示;最后使用一个多层感知器(Multilayer Perceptron,MLP)来预测该跨度的标签。
举例来说,给定一个包含n个词语的句子x=[w1,w2,...,wn],一个跨度其中bi,ei分别是开始和结束索引位置。其内容表示计算为跨度中所有词语嵌入的加权平均值,边界表示连接开始和结束索引位置的嵌入。
c1,c2,...,cn=TokenRepr(w1,w2,...,wn)
u1,u2,...,un=BiLSTM(c1,c2,...,cn)
其中,TokenRepr为采用的Bert初始化表示,c1,c2,...,cn为对句子中的词语进行Bert初始化后得到的数据,BiLSTM是一个双向LSTM层,u1,u2,...,un表示利用Bi-LSTM对进行Bert初始化后得到的数据进行处理后得到的数据,SelfAttn是一个自注意力层,zi表示跨度的内容表示以及边界表示。
接着使用多层感知器(MLP)预测所有词语的标签,
oi=softmax(MLPspan(zi))
其中,oi是对跨度的预测结果,softmax是采用softmax函数获得标签的概率分布。
进一步的,在上述实施例的基础上,下面对生成样本实体集的具体实施方式进行介绍。上述步骤S101具体可以包括如下步骤:
步骤1),获取本轮迭代对应的初始实体集。
步骤2),将本轮迭代对应的初始实体集以及上轮迭代对应的样本实体集输入上轮迭代对应的文本表示模型中,分别得到本轮迭代对应的初始实体集中各个初始实体对应的第一文本表示以及上轮迭代对应的样本实体集中各个样本实体对应的第二文本表示。
步骤3),根据第一文本表示以及第二文本表示对上轮迭代对应的样本实体集进行更新,得到本轮迭代对应的样本实体集。
具体的,在上述步骤1)中,电子设备可以获取本轮迭代对应的初始实体集。其中,初始实体集包括多个初始实体以及与每个初始实体对应的标记结果。
可以理解的是,与获取本轮迭代对应的样本实体集类似,电子设备获取上述初始实体集的方式有多种,本申请实施例对此不作具体的限定,本领域技术人员可以根据实际情况进行合适的调整。举例来说,电子设备可以接收其他设备发送的初始实体集;或者,电子设备可以从云端或者本地读取预先存储的初始实体集;或者,电子设备可以自己生成初始实体集等。
其中,电子设备生成初始实体集的具体实施方式将在后续实施例进行详细的说明,此处暂不介绍。
在上述步骤2)中,可以将本轮迭代对应的初始实体集输入上轮迭代对应的文本表示模型中,得到本轮迭代对应的初始实体集中各个初始实体对应的第一文本表示。也就是说,基于文本表示模型,可以将初始实体集中的每个初始实体都通过向量表示出来,该向量即为上述第一文本表示。
类似的,可以将上轮迭代对应的样本实体集输入上轮迭代对应的文本表示模型中,得到上轮迭代对应的样本实体集中各个样本实体对应的第二文本表示。也就是说,基于文本表示模型,可以将样本实体集中的每个样本实体都通过向量表示出来,该向量即为上述第二文本表示。
在本申请实施例中,文本表示模型可以采用预训练模型Bert实现。作为一种实施方式,可以直接将Bert模型的输出作为上述第一文本表示或者第二文本表示;作为另一种实施方式,可以通过计算Bert前N层嵌入表示的平均值作为上述第一文本表示或者第二文本表示,其中,N为自然数。
此外,作为一种实施方式,上述步骤2)可以利用训练好的Bert模型实现;也就是说,上轮迭代对应的文本识别模型与本轮迭代对应的文本识别模型可以是相同的。作为另一种实施方式,上述步骤2)也可以利用实时更新的Bert模型实现;也就是说,上轮迭代对应的文本识别模型与本轮迭代对应的文本识别模型可以是不相同的。
其中,对文本识别模型进行更新的具体实施方式将在后续实施例进行详细的说明,此处暂不介绍。
在上述步骤3)中,可以根据上述第一文本表示以及第二文本表示对上轮迭代对应的样本实体集进行更新,从而可以得到本轮迭代对应的样本实体集。
在上述方案中,由于初始实体集中不一定都是正确标记的结果,因此可以通过文本表示模型可以从初始实体集中筛选得到准确度较高的样本实体集。因此,在本申请实施例中,训练使用的样本数据无需人工标注便可以自动得到,从而可以减少训练过程中人工标注造成的成本。此外,本申请实施例得到的训练后的实体识别模型无需受特定领域的标签的限制,可以适用于多种应用场景。
进一步的,在上述实施例的基础上,上述根据第一文本表示以及第二文本表示对上轮迭代对应的样本实体集进行更新,得到本轮迭代对应的样本实体集的步骤,具体可以包括如下步骤:
步骤1),针对本轮迭代对应的初始实体集中的一个初始实体以及上轮迭代对应的样本实体集中与该初始实体的类别相同的样本实体子集,根据该初始实体对应的第一文本表示与该样本实体子集对应的第二文本表示计算该初始实体对应的实体置信度。
步骤2),若实体置信度大于实体阈值,将该初始实体加入上轮迭代对应的样本实体集中。
具体的,初始实体集中包括多个初始实体,每一个初始实体均可以执行上述步骤1)-步骤2)。
因此,针对初始实体集中的每一个初始实体,均可以计算该初始实体的实体置信度,并在该初始实体的实体置信度大于实体阈值,将该初始实体加入上轮迭代对应的样本实体集中。计算完成每个初始实体的实体置信度后,便完成了本轮对样本实体集的更新;与上轮迭代对应的样本实体集相比,本轮迭代对应的样本实体集中新增了部分初始实体。
针对一个初始实体,在上述步骤1中,可以根据该初始实体对应的标记结果,从样本实体集中筛选出与该初始实体的类别相同的部分样本实体,这部分样本实体可以组成样本实体子集。根据该初始实体对应的第一文本表示,以及该样本实体子集对应的第二文本表示,可以计算得到该初始实体对应的实体置信度。
其中,计算初始实体对应的实体置信度的具体实施方式将在后续实施例进行详细的说明,此处暂不介绍。
在上述步骤2)中,作为一种实施方式,实体阈值可以是事先确定且固定不变的;作为另一种实施方式,实体阈值也可以是实时更新的;本申请实施例对此不作具体的限定,本领域技术人员可以根据实际情况进行合适的调整。
对于实体置信度不大于实体阈值的初始实体,在本申请实施例中,不对这部分初始实体做处理。
在上述方案中,可以通过计算初始实体的实体置信度,并将上述实体置信度与实体阈值进行比较,通过对样本实体集进行更新,以得到准确度更高的样本实体集。
进一步的,在上述实施例的基础上,下面对计算初始实体对应的实体置信度的一种具体实施方式进行介绍。上述根据该初始实体对应的第一文本表示与该样本实体子集对应的第二文本表示计算该初始实体对应的实体置信度的步骤,具体可以包括如下步骤:
步骤1),计算该初始实体对应的第一文本表示与该样本实体子集中的各个样本实体对应的第二文本表示之间的多个余弦相似度。
步骤2),将多个预先相似度中的最大值确定为实体置信度。
因此,可以计算得到该样本实体子集中的每一个样本实体对应的余弦相似度。
需要说明的是,本申请实施例对计算第一文本表示与第二文本表示之间的余弦相似度的具体实施方式不作具体的限定,本领域技术人员可以结合现有技术进行合适的调整。
在上述方案中,可以通过计算每个初始实体的局部分数作为实体置信度,并基于实体置信度筛选实体集中的噪声数据,得到准确度更高的样本实体集。
进一步的,在上述实施例的基础上,下面对计算初始实体对应的实体置信度的另一种具体实施方式进行介绍。上述根据该初始实体对应的第一文本表示与该样本实体子集对应的第二文本表示计算该初始实体对应的实体置信度的步骤,具体可以包括如下步骤:
步骤1),计算该初始实体对应的第一文本表示与该样本实体子集中的各个样本实体对应的第二文本表示之间的多个余弦相似度。
步骤2),将多个余弦相似度中的最大值确定为该初始实体对应的局部分数。
步骤3),计算该初始实体对应的第一文本表示与该样本实体子集中的各个样本实体对应的第二文本表示之间的全局分数。
步骤4),根据局部分数以及全局分数计算实体置信度。
具体的,上述步骤1)-步骤2)的具体实施方式与上述实施例中的步骤1)-步骤2)的具体实施方式类似,此处不再赘述。区别在于,由于上述步骤1)-步骤2)是基于单个样本实体计算的,因此在本申请实施例中,为该初始实体对应的局部分数。
在上述方案中,可以通过计算每个初始实体的局部分数以及全局分数作为实体置信度,并基于实体置信度筛选实体集中的噪声数据,得到准确度更高的样本实体集。
进一步的,在上述实施例的基础上,下面对计算全局分数的具体实施方式进行介绍。上述计算该初始实体对应的第一文本表示与该样本实体子集中的各个样本实体对应的第二文本表示之间的全局分数的步骤,具体可以包括如下步骤:
步骤1),计算该样本实体子集中部分样本实体对应的第二文本表示的文本表示平均值。
步骤2),计算文本表示平均值与该初始实体对应的第一文本表示之间的余弦相似度,得到全局分数。
在上述方案中,由于局部分数是基于样本实体集中的单个实例来估计的,因此,可以进一步计算基于样本实体集整体来估计的全局分数,以得到准确度更高的样本实体集。
进一步的,在上述实施例的基础上,下面对计算实体置信度的具体实施方式进行介绍。上述根据局部分数以及全局分数计算实体置信度的步骤,具体可以包括如下步骤:
计算局部分数以及全局分数的几何平均值,得到实体置信度。
具体的,可以基于如下公式计算得到实体置信度scorei:
在上述方案中,为了保证样本实体集中新样本实例的探索能力和可靠性,可以通过计算局部分数与全局分数的几何平均值得到某一个初始实体的实体置信度,以得到准确度更高的样本实体集。
进一步的,在上述实施例的基础上,本申请实施例还可以对实体阈值进行更新。即,在上述将该初始实体加入上轮迭代对应的样本实体集中的步骤之后,本申请实施例提供的实体识别模型训练方法还可以包括如下步骤:
根据本轮迭代对应的样本实体集中的样本实体对应的实体置信度,对实体阈值进行更新。
具体的,作为一种实施方式,针对样本实体集中的一个样本实体ep,可以计算其相对于样本实体集中其他样本实体的置信度得分,并随机重复T次,使用最小值作为实体阈值。对于第i个类别,可以基于如下公式计算得到实体阈值threshold:
其中,τ2∈[0,1]是控制阈值的温度系数。
在上述方案中,由于不同迭代轮次中不同类别的实体阈值可能不同,因此可以设置一个可动态调整的实体阈值,以得到准确度更高的样本实体集。
进一步的,在上述实施例的基础上,下面对对文本识别模型进行更新的具体实施方式进行介绍。本申请实施例提供的实体识别模型训练方法还可以包括如下步骤:
根据本轮迭代对应的样本实体集对上轮迭代对应的文本表示模型进行训练,得到本轮迭代对应的文本表示模型。
在上述方案中,可以利用更新后的样本实体集对文本表示模型进行更新,以用于下一轮的样本实体集的更新,从而可以得到准确度更高的样本实体集。
进一步的,在上述实施例的基础上,用于训练文本表示模型的损失函数包括:对比学习损失函数,和/或,掩码语言模型损失函数。
具体的,在训练文本表示模型的过程中,使用的损失函数可以有三种:第一种,采用对比学习损失函数;第二种,采用掩码语言模型损失函数;第三种,采用对比学习损失函数与掩码语言模型损失函数组成的损失函数。
其中,对比学习损失函数LKGCL可以表示为:
掩码语言模型损失函数LMLM可以表示为:
其中,pij(xi)为第i个词语xi对于第j个标签的概率,yij是i个词语xi的真实标签,M表示句子中词语数量,L表示标签个数。
对比学习损失函数与掩码语言模型损失函数组成的损失函数LOSS可以表示为:
LOSS=λ·LKGCL+(1-λ)·LMLM;
其中,λ为对比学习损失函数的比例参数,其可以预先确定。
在上述方案中,可以通过对比学习损失函数以及掩码语言模型损失函数来对文本表示模型进行更新,从而可以得到准确度更高的样本实体集。其中,引入对比学习损失,可以增强文本表示,使得实体间同类别相互聚拢,扩大不同类别间的差异;引入掩码语言模型损失,可以提高文本表示模型在目标数据上的学习能力;因此,可以得到性能更优的文本表示模型。
进一步的,在上述实施例的基础上,下面对生成初始实体集的具体实施方式进行介绍。上述获取本轮迭代对应的初始实体集的步骤,具体可以包括如下步骤:
步骤1),从本轮迭代对应的未标记数据中基于组合逻辑规则筛选得到本轮迭代对应的候选实体集。
步骤2),基于本轮迭代对应的标记规则对本轮迭代对应的候选实体集中的候选实体进行标记,得到本轮迭代对应的初始实体集。
具体的,逻辑规则可以包括:词语、前文、后文、词性、依存关系。以未标记数据“Hemoved to the United States in 1916”为例,给定一个目标候选实体“United States”,筛选的逻辑规则为:针对词语:United States;针对前文:moved to the(当前文词语数设为3时);针对后文:in 1916(当后文词语数设为3时);针对词性:PROPN PROPN(词性为专有名词);针对依存关系:to-pobj(与to是介宾关系)。
而组合逻辑规则可以为上述五种逻辑规则组合得到的规则。作为一种实施方式,组合逻辑规则可以为上述五种逻辑规则两两组合得到;作为另一种实施方式,组合逻辑规则可以为上述五种逻辑规则中的至少一个逻辑规则组合得到,例如:组合逻辑规则可以包括上述五种逻辑规则本身,还可以包括上述五种逻辑规则两两组合得到的多个规则,还可以包括上述五种逻辑规则组合得到的一个规则等。
在上述步骤1)中,基于上述组合逻辑规则从未标记数据中筛选得到候选实体集。
在上述步骤2)中,可以利用标记规则对上述筛选得到的候选实体集进行标记,得到初始实体集。其中,标记规则包括多个实体以及实体对应的类别。
作为一种实施方式,标记规则可以为事先确定且不会改变的;作为另一种实施方式,标记规则可以实时更新。其中,对标记规则进行更新的具体实施方式将在后续实施例进行详细的说明,此处暂不介绍。
在上述方案中,引入由简单规则组合的组合逻辑规则对未标记数据进行筛选,从而提高边界检测的精度,然后利用标记规则对候选实体进行标记,得到初始实体集。
进一步的,在上述实施例的基础上,本申请实施例还可以对未标记数据以及标记规则进行更新。即,在上述根据本轮迭代对应的样本实体集对上轮迭代对应的实体识别模型进行训练,得到本轮迭代对应的实体识别模型之后,本申请实施例提供的实体识别模型训练方法还可以包括如下步骤:
步骤1),将本轮迭代对应的未标记数据输入本轮迭代对应的实体识别模型中,得到本轮迭代对应的实体识别模型输出的实体及对应的各个类别的概率值。
步骤2),根据概率值对本轮迭代对应的标记规则以及本轮迭代对应的未标记数据进行更新,得到下轮迭代对应的标记规则以及下轮迭代对应的未标记数据。
具体的,在上述步骤1)中,通过将未标记数据输入训练得到的实体识别模型中,可以多个实体及每个实体属于各个类别的概率值。
在上述步骤2)中,针对每个类别,可以取前70%(本申请实施例对该数值大小不作限定)置信度最高的跨度进行排序和筛选,作为计算规则分数的弱标签,再根据候选规则的置信度分数从中选择新的规则。
其中,可以基于如下公式计算规则r的置信度F(r):
作为一种实施,在每轮迭代中,可以为每个类别选择前K个规则作为下一轮迭代中学习的规则;作为另一种实施方式,在每轮迭代中,可以为每个类别选择前K个规则作为下一轮迭代中学习的规则,同时每轮迭代中对K逐次增加η。
在上述方案中,可以利用训练得到的实体识别模型对未标记数据以及标记规则进行更新,从而提高下一轮训练得到的实体识别模型的性能。
进一步的,在上述实施例的基础上,在得到训练后的实体识别模型之后,作为一种实施方式,可以直接使用该实体识别模型进行实体识别;作为另一种实施方式,可以对实体识别模型进行模型蒸馏,使用模型蒸馏后得到的轻型实体识别模型进行实体识别。
在上述步骤S102之后,本申请实施例提供的实体识别模型训练方法还可以包括如下步骤:
对训练得到的实体识别模型进行模型蒸馏,得到对应的轻型实体识别模型。
具体的,Bert模型可以分为embedding层、transformer层和prediction层,每种层是知识的不同表示形式。作为一种实施方式,可以对每种层采取不同的学习方式,即每种层的目标函数不同,最终将每种层的知识整合得到学生模型,即模型的整体目标函数为:
Lmodel=∑i∈{e,t,p}λiLi(Si,Ti);
其中,e,t,p分别代表embedding层、transformer层和prediction层,λi表示相应层的权重,Li表示相应层的蒸馏损失,Si,Ti分别表示相应层的学生模型和老师模型。
下面将介绍不同层的蒸馏方式。
针对embedding层,可以采用均方误差公式作为embedding层蒸馏的目标函数。embedding层蒸馏的目标函数Le可以基于如下公式确定:
Le=MSE(ESWe,ET);
其中,ES,ET分别表示学生模型和老师模型的向量矩阵,We为一个转换矩阵,用于将学生向量矩阵和老师向量矩阵映射到同一维度。
针对transformer层,由于transformer层对模型贡献最大,包含的信息最丰富,学生模型在该层的学习能力也最为重要,因此,为了使小模型中的信息量能最大化保存,对transformer层可以采用基于EMD的蒸馏方式。
transformer层蒸馏的目标函数Lt可以基于如下公式确定:
Lt=Lattn+Lffn;
其中,Lattn为基于多头注意力机制(multi-head attention)确定的目标函数,为attention矩阵之间的EMD距离,fij为老师第i层transformer的矩阵和学生第j层transformer的矩阵,Lffn为基于全连接前馈神经网络(Feed-forward neural network,FFN)确定的目标函数,为FFN矩阵之间的EMD距离。
针对prediction层,可以使用软硬目标线性结合的方式进行蒸馏。
prediction层蒸馏的目标函数Lp可以基于如下公式确定:
其中,Lph表示学生模型与真实标签之间的交叉熵损失,Lps表示学生模型和老师模型之间的交叉熵损失,α表示每个损失的权重;表示温度,用于softmax函数中,当其趋向于0时,softmax输出将收敛为一个one-hot向量,趋向于无穷时,softmax的输出则更软。
在上述方案中,可以将训练得到的实体识别模型作为教师模型,基于模型蒸馏将教师模型上的知识迁移到另一个轻量级的单模型上,通过学生模型学习老师模型的泛化能力,从而得到保证性能且结构更简单的轻型实体识别模型。
本申请实施例还提供的一种实体识别方法的流程图,该实体识别方法可以包括如下步骤:
步骤1),获取待识别文本。
步骤2),将待识别文本输入预先训练好的实体识别模型中,得到实体识别模型输出的实体及对应的实体类别;其中,实体识别模型为利用实体识别模型训练方法训练得到的。
在上述方案中,通过初始实体集中的各个初始实体对应的文本表示从初始实体集中筛选得到样本实体集,并利用上述筛选得到的样本实体集对实体识别模型进行训练。因此,在本申请实施例中,训练使用的样本数据无需人工标注便可以自动得到,从而可以减少训练过程中人工标注造成的成本。此外,本申请实施例得到的训练后的实体识别模型无需受特定领域的标签的限制,可以适用于多种应用场景。
请参照图2,图2为本申请实施例提供的一种实体识别模型训练装置的结构框图,该实体识别模型训练装置200包括:第一获取模块201,用于获取本轮迭代对应的样本实体集;其中,所述本轮迭代对应的样本实体集根据第一文本表示以及第二文本表示对上轮迭代对应的样本实体集更新得到,所述第一文本表示为所述本轮迭代对应的初始实体集中的各个初始实体的文本表示,所述第二文本表示为所述上轮迭代对应的样本实体集中的各个样本实体的文本表示;第一训练模块202,用于根据所述本轮迭代对应的样本实体集对上轮迭代对应的实体识别模型进行训练,得到本轮迭代对应的实体识别模型。
在上述方案中,通过初始实体集中的各个初始实体对应的文本表示从初始实体集中筛选得到样本实体集,并利用上述筛选得到的样本实体集对实体识别模型进行训练。因此,在本申请实施例中,训练使用的样本数据无需人工标注便可以自动得到,从而可以减少训练过程中人工标注造成的成本。此外,本申请实施例得到的训练后的实体识别模型无需受特定领域的标签的限制,可以适用于多种应用场景。
进一步的,所述第一获取模块201具体用于:获取所述本轮迭代对应的初始实体集;将所述本轮迭代对应的初始实体集以及所述上轮迭代对应的样本实体集输入上轮迭代对应的文本表示模型中,分别得到所述本轮迭代对应的初始实体集中各个初始实体对应的第一文本表示以及所述上轮迭代对应的样本实体集中各个样本实体对应的第二文本表示;根据所述第一文本表示以及所述第二文本表示对所述上轮迭代对应的样本实体集进行更新,得到所述本轮迭代对应的样本实体集。
在上述方案中,由于初始实体集中不一定都是正确标记的结果,因此可以通过文本表示模型可以从初始实体集中筛选得到准确度较高的样本实体集。因此,在本申请实施例中,训练使用的样本数据无需人工标注便可以自动得到,从而可以减少训练过程中人工标注造成的成本。此外,本申请实施例得到的训练后的实体识别模型无需受特定领域的标签的限制,可以适用于多种应用场景。
进一步的,所述第一获取模块201还用于:针对所述本轮迭代对应的初始实体集中的一个初始实体以及所述上轮迭代对应的样本实体集中与该初始实体的类别相同的样本实体子集,根据该初始实体对应的第一文本表示与该样本实体子集对应的第二文本表示计算该初始实体对应的实体置信度;若所述实体置信度大于实体阈值,将该初始实体加入所述上轮迭代对应的样本实体集中。
在上述方案中,可以通过计算初始实体的实体置信度,并将上述实体置信度与实体阈值进行比较,通过对样本实体集进行更新,以得到准确度更高的样本实体集。
进一步的,所述第一获取模块201还用于:计算该初始实体对应的第一文本表示与该样本实体子集中的各个样本实体对应的第二文本表示之间的多个余弦相似度;将多个预先相似度中的最大值确定为所述实体置信度。
在上述方案中,可以通过计算每个初始实体的局部分数作为实体置信度,并基于实体置信度筛选实体集中的噪声数据,得到准确度更高的样本实体集。
进一步的,所述第一获取模块201还用于:计算该初始实体对应的第一文本表示与该样本实体子集中的各个样本实体对应的第二文本表示之间的多个余弦相似度;将多个余弦相似度中的最大值确定为该初始实体对应的局部分数;计算该初始实体对应的第一文本表示与该样本实体子集中的各个样本实体对应的第二文本表示之间的全局分数;根据所述局部分数以及所述全局分数计算所述实体置信度。
在上述方案中,可以通过计算每个初始实体的局部分数以及全局分数作为实体置信度,并基于实体置信度筛选实体集中的噪声数据,得到准确度更高的样本实体集。
进一步的,所述第一获取模块201还用于:计算该样本实体子集中部分样本实体对应的第二文本表示的文本表示平均值;计算所述文本表示平均值与该初始实体对应的第一文本表示之间的余弦相似度,得到所述全局分数。
在上述方案中,由于局部分数是基于样本实体集中的单个实例来估计的,因此,可以进一步计算基于样本实体集整体来估计的全局分数,以得到准确度更高的样本实体集。
进一步的,所述第一获取模块201还用于:计算所述局部分数以及所述全局分数的几何平均值,得到所述实体置信度。
在上述方案中,为了保证样本实体集中新样本实例的探索能力和可靠性,可以通过计算局部分数与全局分数的几何平均值得到某一个初始实体的实体置信度,以得到准确度更高的样本实体集。
进一步的,所述实体识别模型训练装置200还包括:第一更新模块,用于根据所述本轮迭代对应的样本实体集中的样本实体对应的实体置信度,对所述实体阈值进行更新。
在上述方案中,由于不同迭代轮次中不同类别的实体阈值可能不同,因此可以设置一个可动态调整的实体阈值,以得到准确度更高的样本实体集。
进一步的,所述实体识别模型训练装置200还包括:第二训练模块,用于根据所述本轮迭代对应的样本实体集对所述上轮迭代对应的文本表示模型进行训练,得到本轮迭代对应的文本表示模型。
在上述方案中,可以利用更新后的样本实体集对文本表示模型进行更新,以用于下一轮的样本实体集的更新,从而可以得到准确度更高的样本实体集。
进一步的,用于训练所述文本表示模型的损失函数包括:对比学习损失函数,和/或,掩码语言模型损失函数。
在上述方案中,可以通过对比学习损失函数以及掩码语言模型损失函数来对文本表示模型进行更新,从而可以得到准确度更高的样本实体集。
进一步的,所述对比学习损失函数为:
在上述方案中,可以引入对比学习损失,增强文本表示,使得实体间同类别相互聚拢,扩大不同类别间的差异,从而得到性能更优的文本表示模型。
进一步的,所述掩码语言模型损失函数为:
其中,pij(xi)为第i个词语xi对于第j个标签的概率,yij是i个词语xi的真实标签,M表示句子中词语数量,L表示标签个数。
在上述方案中,可以引入掩码语言模型损失,提高文本表示模型在目标数据上的学习能力,从而得到性能更优的文本表示模型。
进一步的,所述第一获取模块201还用于:从本轮迭代对应的未标记数据中基于组合逻辑规则筛选得到本轮迭代对应的候选实体集;基于本轮迭代对应的标记规则对所述本轮迭代对应的候选实体集中的候选实体进行标记,得到所述本轮迭代对应的初始实体集。
在上述方案中,引入由简单规则组合的组合逻辑规则对未标记数据进行筛选,从而提高边界检测的精度,然后利用标记规则对候选实体进行标记,得到初始实体集。
进一步的,所述实体识别模型训练装置200还包括:第二识别模块,用于将所述本轮迭代对应的未标记数据输入所述本轮迭代对应的实体识别模型中,得到所述本轮迭代对应的实体识别模型输出的实体及对应的各个类别的概率值;第二更新模块,用于根据所述概率值对所述本轮迭代对应的标记规则以及本轮迭代对应的未标记数据进行更新,得到下轮迭代对应的标记规则以及下轮迭代对应的未标记数据。
在上述方案中,可以利用训练得到的实体识别模型对未标记数据以及标记规则进行更新,从而提高下一轮训练得到的实体识别模型的性能。
进一步的,所述实体识别模型训练装置200还包括:蒸馏模块,用于对训练得到的实体识别模型进行模型蒸馏,得到对应的轻型实体识别模型。
在上述方案中,可以将训练得到的实体识别模型作为教师模型,基于模型蒸馏将教师模型上的知识迁移到另一个轻量级的单模型上,通过学生模型学习老师模型的泛化能力,从而得到保证性能且结构更简单的轻型实体识别模型。
请参照图3,图3为本申请实施例提供的一种实体识别装置的结构框图,该实体识别装置300包括:第二获取模块301,用于获取待识别文本;第一识别模块301,用于将所述待识别文本输入预先训练好的实体识别模型中,得到所述实体识别模型输出的实体及对应的实体类别;其中,所述实体识别模型为利用如上述实施例中的实体识别模型训练方法训练得到的。
在上述方案中,通过初始实体集中的各个初始实体对应的文本表示从初始实体集中筛选得到样本实体集,并利用上述筛选得到的样本实体集对实体识别模型进行训练。因此,在本申请实施例中,训练使用的样本数据无需人工标注便可以自动得到,从而可以减少训练过程中人工标注造成的成本。此外,本申请实施例得到的训练后的实体识别模型无需受特定领域的标签的限制,可以适用于多种应用场景。
请参照图4,图4为本申请实施例提供的一种电子设备的结构框图,该电子设备400包括:至少一个处理器401,至少一个通信接口402,至少一个存储器403和至少一个通信总线404。其中,通信总线404用于实现这些组件直接的连接通信,通信接口402用于与其他节点设备进行信令或数据的通信,存储器403存储有处理器401可执行的机器可读指令。当电子设备400运行时,处理器401与存储器403之间通过通信总线404通信,机器可读指令被处理器401调用时执行上述实体识别模型训练方法或者实体识别方法。
例如,本申请实施例的处理器401通过通信总线404从存储器403读取计算机程序并执行该计算机程序可以实现如下方法:步骤S101:获取本轮迭代对应的样本实体集;其中,本轮迭代对应的样本实体集根据第一文本表示以及第二文本表示对上轮迭代对应的样本实体集更新得到,第一文本表示为本轮迭代对应的初始实体集中的各个初始实体的文本表示,第二文本表示为上轮迭代对应的样本实体集中的各个样本实体的文本表示。步骤S102:根据本轮迭代对应的样本实体集对上轮迭代对应的实体识别模型进行训练,得到本轮迭代对应的实体识别模型。
其中,处理器401包括一个或多个,其可以是一种集成电路芯片,具有信号的处理能力。上述的处理器401可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、微控制单元(Micro Controller Unit,简称MCU)、网络处理器(NetworkProcessor,简称NP)或者其他常规处理器;还可以是专用处理器,包括神经网络处理器(Neural-network Processing Unit,简称NPU)、图形处理器(Graphics Processing Unit,简称GPU)、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuits,简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。并且,在处理器401为多个时,其中的一部分可以是通用处理器,另一部分可以是专用处理器。
存储器403包括一个或多个,其可以是,但不限于,随机存取存储器(RandomAccess Memory,简称RAM),只读存储器(Read Only Memory,简称ROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,简称EPROM),电可擦除可编程只读存储器(ElectricErasable Programmable Read-Only Memory,简称EEPROM)等。
可以理解,图4所示的结构仅为示意,电子设备400还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。图4中所示的各组件可以采用硬件、软件或其组合实现。于本申请实施例中,电子设备400可以是,但不限于台式机、笔记本电脑、智能手机、智能穿戴设备、车载设备等实体设备,还可以是虚拟机等虚拟设备。另外,电子设备400也不一定是单台设备,还可以是多台设备的组合,例如服务器集群,等等。
本申请实施例还提供一种计算机程序产品,包括存储在计算机可读存储介质上的计算机程序,计算机程序包括计算机程序指令,当计算机程序指令被计算机执行时,计算机能够执行上述实施例中实体识别模型训练方法或者实体识别方法的步骤,例如包括:获取本轮迭代对应的样本实体集;其中,所述本轮迭代对应的样本实体集根据第一文本表示以及第二文本表示对上轮迭代对应的样本实体集更新得到,所述第一文本表示为所述本轮迭代对应的初始实体集中的各个初始实体的文本表示,所述第二文本表示为所述上轮迭代对应的样本实体集中的各个样本实体的文本表示;根据所述本轮迭代对应的样本实体集对上轮迭代对应的实体识别模型进行训练,得到本轮迭代对应的实体识别模型。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序指令,所述计算机程序指令被计算机运行时,使所述计算机执行前述方法实施例所述的实体识别模型训练方法或者实体识别方法。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
需要说明的是,功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (13)
1.一种实体识别模型训练方法,其特征在于,包括:
获取本轮迭代对应的样本实体集;其中,所述本轮迭代对应的样本实体集根据第一文本表示以及第二文本表示对上轮迭代对应的样本实体集更新得到,所述第一文本表示为所述本轮迭代对应的初始实体集中的各个初始实体的文本表示,所述第二文本表示为所述上轮迭代对应的样本实体集中的各个样本实体的文本表示;
根据所述本轮迭代对应的样本实体集对上轮迭代对应的实体识别模型进行训练,得到本轮迭代对应的实体识别模型。
2.根据权利要求1所述的实体识别模型训练方法,其特征在于,所述获取本轮迭代对应的样本实体集,包括:
获取所述本轮迭代对应的初始实体集;
将所述本轮迭代对应的初始实体集以及所述上轮迭代对应的样本实体集输入上轮迭代对应的文本表示模型中,分别得到所述本轮迭代对应的初始实体集中各个初始实体对应的第一文本表示以及所述上轮迭代对应的样本实体集中各个样本实体对应的第二文本表示;
根据所述第一文本表示以及所述第二文本表示对所述上轮迭代对应的样本实体集进行更新,得到所述本轮迭代对应的样本实体集。
3.根据权利要求2所述的实体识别模型训练方法,其特征在于,所述根据所述第一文本表示以及所述第二文本表示对所述上轮迭代对应的样本实体集进行更新,得到所述本轮迭代对应的样本实体集,包括:
针对所述本轮迭代对应的初始实体集中的一个初始实体以及所述上轮迭代对应的样本实体集中与该初始实体的类别相同的样本实体子集,根据该初始实体对应的第一文本表示与该样本实体子集对应的第二文本表示计算该初始实体对应的实体置信度;
若所述实体置信度大于实体阈值,将该初始实体加入所述上轮迭代对应的样本实体集中。
4.根据权利要求3所述的实体识别模型训练方法,其特征在于,所述根据该初始实体对应的第一文本表示与该样本实体子集对应的第二文本表示计算该初始实体对应的实体置信度,包括:
计算该初始实体对应的第一文本表示与该样本实体子集中的各个样本实体对应的第二文本表示之间的多个余弦相似度;
将多个预先相似度中的最大值确定为所述实体置信度。
5.根据权利要求3所述的实体识别模型训练方法,其特征在于,所述根据该初始实体对应的第一文本表示与该样本实体子集对应的第二文本表示计算该初始实体对应的实体置信度,包括:
计算该初始实体对应的第一文本表示与该样本实体子集中的各个样本实体对应的第二文本表示之间的多个余弦相似度;
将多个余弦相似度中的最大值确定为该初始实体对应的局部分数;
计算该初始实体对应的第一文本表示与该样本实体子集中的各个样本实体对应的第二文本表示之间的全局分数;
根据所述局部分数以及所述全局分数计算所述实体置信度。
6.根据权利要求5所述的实体识别模型训练方法,其特征在于,所述计算该初始实体对应的第一文本表示与该样本实体子集中的各个样本实体对应的第二文本表示之间的全局分数,包括:
计算该样本实体子集中部分样本实体对应的第二文本表示的文本表示平均值;
计算所述文本表示平均值与该初始实体对应的第一文本表示之间的余弦相似度,得到所述全局分数。
7.根据权利要求2-6任一项所述的实体识别模型训练方法,其特征在于,所述获取所述本轮迭代对应的初始实体集,包括:
从本轮迭代对应的未标记数据中基于组合逻辑规则筛选得到本轮迭代对应的候选实体集;
基于本轮迭代对应的标记规则对所述本轮迭代对应的候选实体集中的候选实体进行标记,得到所述本轮迭代对应的初始实体集。
8.根据权利要求7所述的实体识别模型训练方法,其特征在于,在所述根据所述本轮迭代对应的样本实体集对上轮迭代对应的实体识别模型进行训练,得到本轮迭代对应的实体识别模型之后,所述方法还包括:
将所述本轮迭代对应的未标记数据输入所述本轮迭代对应的实体识别模型中,得到所述本轮迭代对应的实体识别模型输出的实体及对应的各个类别的概率值;
根据所述概率值对所述本轮迭代对应的标记规则以及本轮迭代对应的未标记数据进行更新,得到下轮迭代对应的标记规则以及下轮迭代对应的未标记数据。
9.根据权利要求1所述的实体识别模型训练方法,其特征在于,在所述根据所述本轮迭代对应的样本实体集对上轮迭代对应的实体识别模型进行训练,得到本轮迭代对应的实体识别模型之后,所述方法还包括:
对训练得到的实体识别模型进行模型蒸馏,得到对应的轻型实体识别模型。
10.一种实体识别方法,其特征在于,包括:
获取待识别文本;
将所述待识别文本输入预先训练好的实体识别模型中,得到所述实体识别模型输出的实体及对应的实体类别;其中,所述实体识别模型为利用如权利要求1-9任一项所述的实体识别模型训练方法训练得到的。
11.一种计算机程序产品,其特征在于,包括计算机程序指令,所述计算机程序指令被处理器读取并运行时,执行如权利要求1-10任一项所述的方法。
12.一种电子设备,其特征在于,包括:处理器、存储器和总线;
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的计算机程序指令,所述处理器调用所述计算机程序指令能够执行如权利要求1-10任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序指令,所述计算机程序指令被计算机运行时,使所述计算机执行如权利要求1-10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211067513.5A CN115496067A (zh) | 2022-09-01 | 2022-09-01 | 一种实体识别模型训练方法及装置、实体识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211067513.5A CN115496067A (zh) | 2022-09-01 | 2022-09-01 | 一种实体识别模型训练方法及装置、实体识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115496067A true CN115496067A (zh) | 2022-12-20 |
Family
ID=84468234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211067513.5A Pending CN115496067A (zh) | 2022-09-01 | 2022-09-01 | 一种实体识别模型训练方法及装置、实体识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115496067A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117829153A (zh) * | 2024-03-04 | 2024-04-05 | 北京建筑大学 | 一种基于轻量化预训练模型的实体识别方法和装置 |
-
2022
- 2022-09-01 CN CN202211067513.5A patent/CN115496067A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117829153A (zh) * | 2024-03-04 | 2024-04-05 | 北京建筑大学 | 一种基于轻量化预训练模型的实体识别方法和装置 |
CN117829153B (zh) * | 2024-03-04 | 2024-05-17 | 北京建筑大学 | 一种基于轻量化预训练模型的实体识别方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Firdaus et al. | A deep multi-task model for dialogue act classification, intent detection and slot filling | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
Alhumoud et al. | Arabic sentiment analysis using recurrent neural networks: a review | |
CN109800437A (zh) | 一种基于特征融合的命名实体识别方法 | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN113987187B (zh) | 基于多标签嵌入的舆情文本分类方法、系统、终端及介质 | |
CN110929524A (zh) | 数据筛选方法、装置、设备及计算机可读存储介质 | |
Chen et al. | A few-shot transfer learning approach using text-label embedding with legal attributes for law article prediction | |
CN112883724A (zh) | 文本数据增强处理方法、装置、电子设备和可读存储介质 | |
Ahmad et al. | Ligature based Urdu Nastaleeq sentence recognition using gated bidirectional long short term memory | |
CN115600597A (zh) | 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质 | |
CN114781375A (zh) | 一种基于bert与注意力机制的军事装备关系抽取方法 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN114218945A (zh) | 实体识别方法、装置、服务器及存储介质 | |
CN115796182A (zh) | 一种基于实体级跨模态交互的多模态命名实体识别方法 | |
CN113282714A (zh) | 一种基于区分性词向量表示的事件检测方法 | |
CN113961666A (zh) | 关键词识别方法、装置、设备、介质及计算机程序产品 | |
Mankolli et al. | Machine learning and natural language processing: Review of models and optimization problems | |
CN115496067A (zh) | 一种实体识别模型训练方法及装置、实体识别方法及装置 | |
Hakimov et al. | Evaluating architectural choices for deep learning approaches for question answering over knowledge bases | |
CN114266252A (zh) | 命名实体识别方法、装置、设备及存储介质 | |
CN112906398B (zh) | 句子语义匹配方法、系统、存储介质和电子设备 | |
US11941360B2 (en) | Acronym definition network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |