CN115687917A - 样本处理方法以及装置、识别模型训练方法及装置 - Google Patents

样本处理方法以及装置、识别模型训练方法及装置 Download PDF

Info

Publication number
CN115687917A
CN115687917A CN202211289712.0A CN202211289712A CN115687917A CN 115687917 A CN115687917 A CN 115687917A CN 202211289712 A CN202211289712 A CN 202211289712A CN 115687917 A CN115687917 A CN 115687917A
Authority
CN
China
Prior art keywords
sample
negative
target
word unit
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211289712.0A
Other languages
English (en)
Inventor
许璐
邴立东
陆巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Singapore University of Technology and Design
Original Assignee
Alibaba China Co Ltd
Singapore University of Technology and Design
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd, Singapore University of Technology and Design filed Critical Alibaba China Co Ltd
Priority to CN202211289712.0A priority Critical patent/CN115687917A/zh
Publication of CN115687917A publication Critical patent/CN115687917A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本说明书实施例提供样本处理方法以及装置,其中所述样本处理方法包括:获取待处理语句;构建所述待处理语句对应的词组,并确定所述词组中每个词单元对应的特征标签;根据所述特征标签和所述词组,构建至少一个负样本和目标正样本;计算所述目标正样本与每个负样本的样本相似度,根据所述样本相似度在所述至少一个负样本中确定目标负样本。

Description

样本处理方法以及装置、识别模型训练方法及装置
技术领域
本说明书实施例涉及机器学习技术领域,特别涉及样本处理方法以及装置、识别模型训练方法及装置。
背景技术
人工智能(artificial intelligence;AI)是指已工程化(即设计并制造)的系统感知环境的能力,以及获取、处理、应用和表示知识的能力。人工智能深度学习框架实现了对算法的封装。随着人工智能的发展,各种深度学习框架不断的涌现;TensorFlow、PyTorch等通用型深度学习框架,应用于自然语言处理、计算机视觉、语音处理等领域,以及机器翻译、智慧金融、智能医疗、自动驾驶等行业。是现今应用较为广泛的一种深度学习框架。而自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,涉及的领域较多,主要包括机器翻译(是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程)、机器阅读理解(是指给一段context描述,然后对应的给一个query,机器通过阅读context后,给出对应query的答案)、命名实体识别(是指从非结构化文本中抽取命名实体的处理)等。
现有技术中,命名实体识别在从非结构文本中抽取命名实体后,会对抽取的命名实体进行分类,其通常包括人名、地名和机构名;根据不同的场景,可以对这些分类进行更细致的划分。这一识别过程通常使用模型实现,虽然现在的模型可以在不同的命名实体识别的数据上均有较好表现,但是现存模型识别的精确度是基于在人工标注的数据上训练得到的结果。而人工标注的数据通常需要大量的人力和时间成本,且针对命名实体识别模型的训练,还需要结合正负样本完成,以避免模型过拟合;但是现有技术中的样本标注过程在本身存在成本压力的前提下,负样本标注更加困难,且准确度无法保证,因此亟需一种有效的方案以解决上述问题。
发明内容
有鉴于此,本说明书实施例提供了两种样本处理方法。本说明书一个或者多个实施例同时涉及一种样本处理装置,一种识别模型训练方法,一种识别模型训练装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种样本处理方法,包括:
获取待处理语句;
构建所述待处理语句对应的词组,并确定所述词组中每个词单元对应的特征标签;
根据所述特征标签和所述词组,构建至少一个负样本和目标正样本;
计算所述目标正样本与每个负样本的样本相似度,根据所述样本相似度在所述至少一个负样本中确定目标负样本。
根据本说明书实施例的第二方面,提供了一种样本处理装置,包括:
获取模块,被配置为获取待处理语句;
确定模块,被配置为构建所述待处理语句对应的词组,并确定所述词组中每个词单元对应的特征标签;
构建模块,被配置为根据所述特征标签和所述词组,构建至少一个负样本和目标正样本;
计算模块,被配置为计算所述目标正样本与每个负样本的样本相似度,根据所述样本相似度在所述至少一个负样本中确定目标负样本。
根据本说明书实施例的第三方面,提供了一种识别模型训练方法,包括:
获取待处理语句,并构建所述待处理语句对应的词组;
确定所述词组中每个词单元对应的特征标签,根据所述特征标签和所述词组,构建至少一个负样本和目标正样本;
计算所述目标正样本与每个负样本的样本相似度,根据所述样本相似度在所述至少一个负样本中确定目标负样本;
基于所述目标正样本和所述目标正样本训练初始识别模型,直至获得满足训练停止条件的目标识别模型。
根据本说明书实施例的第四方面,提供了一种识别模型训练装置,包括:
获取语句模块,被配置为获取待处理语句,并构建所述待处理语句对应的词组;
确定标签模块,被配置为确定所述词组中每个词单元对应的特征标签,根据所述特征标签和所述词组,构建至少一个负样本和目标正样本;
计算相似度模块,被配置为计算所述目标正样本与每个负样本的样本相似度,根据所述样本相似度在所述至少一个负样本中确定目标负样本;
训练模型模块,被配置为基于所述目标正样本和所述目标正样本训练初始识别模型,直至获得满足训练停止条件的目标识别模型。
根据本说明书实施例的第五方面,提供了另一种样本处理方法,应用于服务端,包括:
接收用户通过客户端提交的待处理语句;
构建所述待处理语句对应的词组,并确定所述词组中每个词单元对应的特征标签;
根据所述特征标签和所述词组,构建至少一个负样本和目标正样本;
计算所述目标正样本与每个负样本的样本相似度,根据所述样本相似度在所述至少一个负样本中确定目标负样本,并向所述客户端反馈所述目标负样本。
根据本说明书实施例的第六方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令时实现任上述样本处理方法或识别模型训练方法的步骤。
根据本说明书实施例的第七方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述样本处理方法或识别模型训练方法的步骤。
根据本说明书实施例的第八方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述样本处理方法或识别模型训练方法的步骤。
本说明书提供的样本处理方法,为了能够提高负样本标注的准确度,可以在获取到待处理语句后,对其进行预处理以构建待处理语句对应的词组,并确定词组中包含的词单元对应的特征标签,以此初步完成打标处理操作;此后根据特征标签和词组,构建出至少一个负样本和目标正样本,其中目标正样本可以直接作为正样本使用,而至少一个负样本中可能存在标注不准确的问题,因此可以通过计算目标正样本与每个负样本之间的样本相似度,确定每个负样本与目标正样本之间的相似程度,以根据相似程度分析出负样本是否与任意一个目标正样本相近,从而可以确定该负样本是否为标注正确的负样本,以实现在至少一个负样本中确定标注更加准确的目标负样本,从而提高样本质量,并以此结合目标正样本进行识别模型训练,可以避免模型过拟合,提高模型识别精度。
附图说明
图1是本说明书一个实施例提供的一种样本处理的示意图;
图2是本说明书一个实施例提供的一种样本处理方法的流程图;
图3是本说明书一个实施例提供的一种样本处理装置的结构示意图;
图4是本说明书一个实施例提供的一种识别模型训练方法的流程图;
图5是本说明书一个实施例提供的一种识别模型训练装置的结构示意图;
图6是本说明书一个实施例提供的一种文本处理过程的流程图;
图7是本说明书一个实施例提供的另一种样本处理方法的流程图;
图8是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
在本说明书中,提供了两种样本处理方法,本说明书同时涉及一种样本处理装置,一种识别模型训练方法,一种识别模型训练装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,在下面的实施例中逐一进行详细说明。
实际应用中,命名实体识别是从非结构化的文本中抽取命名实体,并且对抽取出来的命名实体进行分类。这些命名实体通常分为三类:人名、地名、机构名。根据不同的场景,也可以对这些分类进行更细致的划分。比如“甲公司生产A手机”。通过命名实体识别,在这段文本中,抽取到“A”是手机品牌,“甲”是机构。实际应用中,命名实体识别可以分析用户搜索中的关键实体词以及商品名称的实体词,由此来帮助买家更准确的定位到搜索的关联产品。
进一步的,虽然现在的模型可以在不同的命名实体识别的数据上均有较好表现,但是现存模型识别的精确度是基于在人工标注的数据上训练得到的结果。人工标注的数据通常需要大量的人力与时间成本,如何在削减这些成本的同时保证模型有相当的准确性是亟需解决的问题。而远程监督标注的数据通过现有的知识或者字典来找到一些初始标注。这些标注虽然正确率普遍偏高但是此类数据集有严重的漏标情况。如果不对模型进行改进,在这种严重漏标的数据集上训练的模型往往会出现过度拟合的情况,从而导致模型不能在真实的数据上有较好的表现,这一标注体现在容易将正样本变为负样本使用。
有鉴于此,参见图1所示的示意图,为了能够提高负样本标注的准确度,可以在获取到待处理语句后,对其进行预处理以构建待处理语句对应的词组,并确定词组中包含的词单元对应的特征标签,以此初步完成打标处理操作;此后根据特征标签和词组,构建出至少一个负样本和目标正样本,其中目标正样本可以直接作为正样本使用,而至少一个负样本中可能存在标注不准确的问题,因此可以通过计算目标正样本与每个负样本之间的样本相似度,确定每个负样本与目标正样本之间的相似程度,以根据相似程度分析出负样本是否与任意一个目标正样本相近,从而可以确定该负样本是否为标注正确的负样本,以实现在至少一个负样本中确定标注更加准确的目标负样本,从而提高样本质量,并以此结合目标正样本进行识别模型训练,可以避免模型过拟合,提高模型识别精度。
需要说明的是,本申请所涉及的用户特征信息或用户数据,均为经用户授权或者经过各方充分授权的信息和数据,其中用户特征信息包括但不限于用户个人信息、用户喜好信息等,用户数据包括但不限于用于分析的数据、存储的数据、展示的数据,如待处理文本或者样本等,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
图2示出了根据本说明书一个实施例提供的一种样本处理方法的流程图,具体包括以下步骤。
步骤S202,获取待处理语句。
具体的,待处理语句具体是指用于训练命名实体识别模型的语句,且该语句当前阶段未被进行打标,即未确定语句中每个词单元对应的标签。其中,待处理语句来自于待训练的命名实体识别模型对应的样本集,该样本集可以包含关联一个或多个领域的语句,用于在模型训练阶段使用。
需要说明的是,为了能够训练出命名实体识别能力更强的模型,可以在样本集中选择指定语句长度的语句,比如选择句长为n的语句作为待处理语句。本实施例以对长度为n的语句作为待处理语句进行样本处理过程的描述,其他长度语句的样本处理过程均可参见本实施例相同或相应的描述内容,在此不作过多赘述。
基于此,在获取到待处理语句后,为了能够使用待处理语句训练具有命名实体识别能力的识别模型,需要在后续对待处理语句中的命名实体进行标注处理,以根据标注处理结果构建样本对,而在构建样本对时,为了避免训练出的识别模型过拟合,会结合正负样本完成训练,而负样本的标注准确度影响较深,因此需要在得到待处理语句后,需要保证负样本标注准确度的前提下完成训练,因此在标注时可以结合负样本与正样本之间的相似度实现。
步骤S204,构建所述待处理语句对应的词组,并确定所述词组中每个词单元对应的特征标签。
具体的,在上述获取到待处理语句后,进一步的,为了能够节省人力和时间成本,可以在初步标注阶段容忍负样本标注错误的设定基础上,进行词单元特征标签的确定,以实现对待处理语句对应词组中的全部词单元都进行打标,以得到每个词单元对应的特征标签,此时虽然存在标注错误的可能,但是可以提高样本标注效率;后续通过结合样本相似度进行过滤,即可对标注错误的负样本进行剔除,以选择标注准确的目标负样本结合目标正样本进行模型训练,实现通过样本相似度纠正标注错误的影响,达到效率和标注准确度都提升的效果。
其中,词组具体是指对待处理语句中的字单元进行枚举所有可能的词单元后,组成的词单元集合,且枚举过程中需要遵循相邻字单元组成词单元的规则;相应的,特征标签具体是指对词组中每个词单元进行打标后的标签,该标签用于表征每个词单元是否为命名实体或非命名实体,且特征标签的设定可以根据实际应用场景设定粒度,比如设置人名、地名和机构名的粒度,或者更细粒度的地名、品牌、人名、机构名等,本实施例在此不作任何限定。
进一步的,在构建待处理语句对应的词组过程中,考虑到待处理语句中包含的字单元数量较多,而相邻字单元的每种组合方式可能形成不同词性的词单元,因此为了能够保证打标准确,可以采用枚举的方式进行词组构建,本实施例中,具体实现方式如下:
生成所述待处理语句对应的字单元序列;按照预设词单元长度对所述字单元序列进行划分,根据划分结果获得至少两个词单元;基于所述至少两个词单元构建所述词组。
具体的,字单元序列具体是指将待处理语句中的字单元按照语句组成顺序排序的序列,相应的,预设词单元长度具体是指设定词单元组成长度上限的长度,用于在对字单元序列进行划分时,可以以预设词单元长度为上限长度进行切分,以得到小于等于预设词单元长度的多个词单元,以组成待处理语句对应的词组。
基于此,为了能够实现对所有可能存在的词单元进行实体识别,可以按照待处理语句中字单元的排列顺序创建字单元序列,之后按照预设词单元长度作为词单元上限长度,对字单元序列进行划分,得到小于等于预设词单元长度的至少两个词单元,并基于得到的至少两个词单元构建词组,以方便后续对词组中的各个词单元分别进行打标。
具体实施时,预设词单元长度可以按照实际需求进行设定,比如2字符长度,3字符长度或者4字符长度等,本实施例在此不作任何限定。
以待处理语句为“甲和乙去了A地”为例进行说明,基于待处理语句生成字单元序列{甲、和、乙、去、了、A、地},之后按照2词单元长度对字单元序列进行划分,根据划分结果得到词单元包括:甲,甲和,和,和乙,乙,乙去,去,去了,A,A地,以根据得到的词单元组成待处理语句对应的词组,方便后续进行使用。
此外,在枚举所有可能的词单元时,考虑到以字单元为基础可能会影响处理效率,因此可以将每个字单元转换为字符串形式表示,以字符串表示子字单元后组成词单元,以构建出词组,比如词组为S={s_1,1,s_1,2…s_n,n},其中,数字表示某个词单元在待处理语句中的起始和终止位置,比如“甲和”即为词组中的s_1,2。
综上,通过枚举的方式将所有可能的词单元都进行创建,以得到丰富度更高的词组,实现在后续进行词单元标注时,可以针对任意一个可能存在的词单元都进行标注,以方便后续得到标注更准确的正负样本。
更进一步的,在对词组中每个词单元进行打标时,考虑到词单元为文字形式,而模型处理实则是以向量形式完成的,因此在进行打标时,可以先转换为向量再进行打标,本实施例中,具体实现方式如下:
构建所述待处理文本中每个字单元对应的字单元特征;按照所述词组中每个词单元对应的字单元组成关系,对所述字单元特征进行拼接,获得每个词单元对应的词单元特征;将所述词单元特征输入至标签分类器进行处理,获得每个词单元对应的特征标签。
具体的,字单元特征具体是指每个字单元对应的向量表达;词单元特征具体是指词组中每个词单元对应的向量表达;相应的,标签分类器具体是指能够针对各个词单元进行打标的分配器,用于标注词单元是否为命名实体和非命名实体。
基于此,首先构建待处理文本中每个字单元对应的字单元特征,其次按照词组中每个词单元对应的字单元组成关系,可以确定每个词单元包含的字单元,之后按照该对应关系对字单元特征进行拼接,以根据拼接结果获得词单元对应的词单元特征,之后将每个词单元对应的词单元特征输入至标签分类器进行处理,即可得到每个词单元对应的特征标签。
实际应用中,在进行特征标签确定时,可以通过预训练模型构建每个字单元的特征向量(hi),之后通过词单元表征向量构建公式,结合每个词单元中包含的字单元,对每个字单元的特征向量进行拼接,即可得到每个词单元对应的表征向量。其中,词单元表征向量构建公式为si,j=[hi;hj;f(i,j)];i,j分别表示词单元中包含的字单元在待识别语句中的起始终止位置,Si,j表示该词单元对应的特征向量,hi,hj分别表示字单元对应的特征向量,f(i,j)表示处理函数,用于根据输入的词单元长度输出一个可训练的表征向量。其中,预训练模型可以使用LSTM模型或者BERT模型,本实施例在此不作任何限定。
在确定每个词单元对应的词单元特征后,可以通过预训练的分类器对每个词单元特征进行处理,用于预测词单元特征对应每个特征标签的概率,以根据预测结果选择概率最高的结果作为词单元特征的标签,即词单元对应的特征标签。在此过程中,分类器的计算过程可以通过如下公式实现:P(t|si,j)=softmax(FFNN(si,j)),其中,P表示词单元对应标签的概率,t表示词单元Si,j对应的标签,FFNN(feedforwardneuralnetwork)即为前馈神经网络。也就是说,可以通过上述公式计算词单元与每个标签之间的概率,用于根据概率计算结果可以选择概率最高的标签作为词单元对应的特征标签。
沿用上例,在得到词组后,可以基于预训练的BERT模型对每个词单元进行编码处理,以得到每个词单元对应的特征向量,之后按照词组中每个词单元的组合结构,创建每个词单元对应的特征向量。此后通过预训练好的标签分类器对每个特征向量进行预测,根据预测结果确定每个词单元对应的特征标签。此时确定待处理语句“甲和乙去了A地”中,甲对应标签PER,和对应标签O,乙对应标签O,去了对应标签O,A地对应标签O,对应标签O;在确定每个词单元对应的标签后,考虑到分类器打标存在一定的误差,因此后续可以进行检测。
综上,通过结合模型和分类器确定每个词单元对应的特征标签,可以实现快速且高效的对全部词单元进行处理,有效的提高了打标效率,结合后续的检错和修正过程,可以进一步提高样本预处理效率。
步骤S206,根据所述特征标签和所述词组,构建至少一个负样本和目标正样本。
具体的,在上述确定每个词单元对应的特征标签后,因为标注后的特征标签和其关联的词单元是用于训练命名实体识别模型的样本,因此需要基于特征标签和其关联的词单元组成样本对,而命名实体识别模型在对语句中的命名实体进行识别时,主要是为了识别命名实体,因此样本对构建时,为了能够避免训练后的模型过拟合,需要结合正负样本进行训练。以通过正样本使得识别模型学习到识别命名实体的能力,以及通过负样本使得模型学习识别非命名实体的能力,用于准确识别。因此在得到特征标签和词组后,可以结合标签和词单元之间的关系构建至少一个负样本和目标正样本,需要说明的是,任意一个正样本都为目标正样本,即为可以直接使用的正样本,而至少一个负样本是指包含标注正确和标注错误的全部负样本,因此需要在后续进行筛选出标注正确的负样本使用。其中,正/负样本均由标签和词单元组成。
进一步的,在构建负样本和正样本时,考虑到正负样本是用于训练识别模型具有区分能力的基准,因此需要保证正负样本的准确性才能够满足使用需求,本实施例中,具体实现方式如下:
对所述特征标签进行分类,根据分类结果确定实体特征标签和非实体特征标签;在所述词组中确定所述实体特征标签对应的基准词单元,以及所述非实体特征标签对应的关联词单元;根据所述基准词单元和所述实体特征标签生成所述目标正样本,以及根据所述关联词单元和所述非实体特征标签生成所述至少一个负样本。
具体的,实体特征标签具体是指针对命名实体进行标注的特征标签,非实体特征标签具体是指针对非命名实体进行标注的特征标签,通过分类用于确定能够作为正样本的词单元和其关联的特征标签,以及能够作为负样本的词单元和其关联的特征标签。相应的,基准词单元具体是指词组中的命名实体对应的词单元,关联词单元具体是指词单元集合中的非命名实体对应的词单元。
基于此,在得到每个词单元对应的特征标签后,为了能够区分可以作为正样本的词单元和负样本的词单元,可以先对特征标签进行分类,以根据分类结果确定实体特征标签和非实体特征标签,之后按照标签在词组中选择其关联的基准词单元和关联词单元,之后根据标签和词单元之间的对应关系,结合基准词单元和实体特征标签组成目标正样本,以及根据关联词单元和非实体特征标签组成至少一个负样本。
沿用上例,在得到甲对应标签PER,和对应标签O,乙对应标签O,去了对应标签O,A地对应标签O,对应标签O后,通过对标签进行分类,确定实体特征标签为PER,非实体特征标签为O,之后在词组中读取标签对应的词单元,之后将实体特征标签PER及其关联词单元组成正样本,以及将非实体特征标签O及其关联的词单元组成负样本,即正样本{甲-PER},负样本{和-O;乙-O;去了-O;A地-O},以方便在后续进行使用。
综上,通过对特征标签进行分类可以准确的确定两种不同类型的标签,以此构建样本,可以得到正样本和负样本,以方便后续可以对负样本进行修正,得到满足训练模型需求的样本使用。
步骤S208,计算所述目标正样本与每个负样本的样本相似度,根据所述样本相似度在所述至少一个负样本中确定目标负样本。
具体的,在上述得到至少一个负样本和目标正样本后,进一步的,考虑到模型训练时,为了避免模型过拟合,通常会准备负样本使用,而正样本作为训练模型的主要样本,负样本作为纠正模型的辅助样本,其对模型的影响也较为重要,如果负样本不够准确,则会导致模型无法达到预期预测精度。因此在得到至少一个负样本后,如果负样本打标错误,那说明该负样本应该是正样本,因此可以通过计算正样本和负样本之间的样本相似度,确定负样本是否标注准确,从而可以根据样本相似度在至少一个负样本中筛选出目标负样本,即为标注准确的负样本。
其中,样本相似度具体是指正样本与负样本之间的相近程度,该相近程度表征在词义、结构等方面。相应的,目标正样本具体是指至少一个负样本中标注正确的负样本。
实际应用中,标注错误的负样本实质即为正样本,因为在数据标注阶段因为自动标注不准确的问题,导致不能对这些样本进行准确标注,因此错误标注的负样本本质上是有正标签的。比如,甲和乙去了A地,通过自动标注将甲标注为PER,而乙标注为O,但是实际上甲和乙属于同一词性的词单元,乙应该也被标注为PER,因此在标注错误后,可以通过筛选的方式,对标注错误的负样本进行剔除,只保留标注正确的负样本进行使用,避免产生迷惑性。
而识别标注错误的负样本时,可以通过计算样本相似度的方式实现。也就是说,标注错误的负样本实际上只会与其词性相同且标注正确的正样本相近,并不会与其他标注准确的正样本相近,即这种负样本只会与标注正确且词义相同的正样本之间相似度特别高,而与其他词义不同标注正确的正样本之间相似度特别低;而标注正确的负样本因为其不属于命名实体,则该负样本将与每个正样本之间的相似度都相近;利用这一特性,可以通过计算负样本与每个正样本之间的样本相似度后,确定负样本与每个正样本的相近程度,从而分析出负样本是否为标注正确的负样本,以实现根据计算结果确定目标负样本。
需要说明的是,在基于样本相似度确定目标负样本时,可以通过计算样本相似度平均值的方式确定负样本对应的样本相似度,之后通过排序筛选出样本相似度最高的负样本作为目标负样本,也可以通过计算样本相似度后,构建该负样本对应的曲线图,如果曲线图的变化曲率大于阈值,则认为是错误负样本,反之则确认为正确负样本。实际应用中,根据样本相似度确定目标负样本的方案可以根据实际应用场景选择,本实施例在此不作任何限定。
进一步的,在计算负样本与目标正样本之间的样本相似度时,实则是结合负样本与每个目标正样本之间的相似度取平均值,本实施例中,具体实现方式如下:
在所述负样本中提取第一词单元,以及在所述目标正样本中提取第二词单元;确定所述第一词单元对应的第一词单元特征,和所述第二词单元对应的第二词单元特征;根据所述第一词单元特征和所述第二词单元特征,计算所述负样本与所述目标正样本之间的样本相似度。
具体的,第一词单元具体是指负样本中包含的词单元,第二词单元具体是指目标正样本中包含的词单元,相应的,第一词单元特征具体是指第一词单元对应的向量表达,第二词单元具体是指第二词单元对应的向量表达。
基于此,在计算任意一个负样本与任意一个正样本之间的样本相似度时,首先在负样本中提取第一词单元,同时在正样本中提取第二词单元,其次,确定第一词单元和第二词单元分别对应的第一词单元特征和第二词单元特征,之后通过计算第一词单元特征和第二词单元特征之间的相似度,即可得到负样本和目标正样本之间的样本相似度。以此类推,直至计算出该负样本与所有正样本之间的样本相似度后,即可判断出该负样本是否为标注正确的负样本。
具体实施时,在计算任意一个负样本与所有目标正样本之间的相似度时,可以通过如下公式实现:
Figure BDA0003900946060000101
其中,Φ表示样本相似度,M表示目标正样本数量,sneg表示负样本对应的第一词单元特征,spos表示目标正样本对应的第二词单元特征,Spos表示所有正样本。
需要说明的是,在计算样本相似度时,是计算负样本与同一批次其他正样本之间的相似度。
综上,通过结合负样本与每个正样本之间的相似度,来确定负样本对应的样本相似度,可以分析负样本与每个正样本之间的词性相近程度,从而可以用于分析负样本是否标注准确,以方便后续筛选目标负样本。
更进一步的,在基于样本相似度筛选目标负样本时,结合上述特征可以通过排序的方式选择,以保证确定目标负样本的准确性,本实施例中,具体实现方式如下:
根据所述样本相似度对所述至少一个负样本进行排序,获得负样本序列;在所述负样本序列中选择设定数量的负样本作为所述目标负样本。
具体的,负样本序列具体是指按照样本相似度对负样本进行排序得到的序列,其排序规则按照从高到低的顺序完成,相应的,设定数量具体是指在序列中按照从高到低选择负样本的数量,其可以根据实际需求选择,本实施例在此不作任何限定。
基于此,在确定样本相似度后,可以根据样本相似度对至少一个负样本进行排序,获得负样本从高到低排序的负样本序列;之后在负样本序列中选择设定数量的负样本作为目标负样本,以方便下游可以结合目标正样本和目标负样本组成训练命名实体识别模型的样本集。
举例说明,在确定正样本存在10个,负样本存在3个的情况下,可以先在正样本中提取出10个基准词单元,以及在负样本中提取出3个关联词单元,之后分别确定每个词单元对应的特征向量;结合上述样本相似度计算公式,计算出负样本1与每个正样本之间的相似度平均值为S1,负样本2与每个正样本之间的相似度平均值为S2,负样本3与每个正样本之间的相似度平均值为S3,之后按照相似度大小进行排序,确定S2>S1>S3,即负样本2与所有正样本之间的相似度平均值最高,进一步说明负样本2的词性并不会与任意一个正样本相似过高,因此可以确定负样本2为标注正确的负样本。同理,确定负样本3与所有正样本之间的相似度平均值最低,进一步说明负样本3的词性可能与10个正样本中某个正样本之间的相似度过高,可以确定负样本3为标注错误的负样本。以此为基础,可以直接选择负样本2作为标注正确的负样本结合10个正样本训练命名实体识别模型。
综上,通过结合样本相似度进行目标负样本的筛选,可以从词性角度分析负样本与正样本之间的相近程度,从而确定负样本是否标注准确,以方便筛选出准确度更高的负样本结合正样本组成训练模型的样本集,以避免模型过拟合。
更进一步的,在得到目标正样本和目标负样本后,说明已经从自动标注的样本中筛选出准确度足够高的正负样本,以此训练模型可以得到识别准确度更高的模型,本实施例中,具体实现方式如下:
基于所述目标正样本和所述目标正样本训练识别模型,根据训练结果计算损失值;在所述损失值满足损失停止训练条件的情况下,将训练后的识别模型作为目标识别模型。
具体的,识别模型具体是指命名实体识别模型,用于识别语句或文本中的命名实体,如人名、地名、机构名等。基于此,在得到目标正样本和目标负样本后,可以基于目标正样本和目标正样本训练识别模型,并在每次训练完成后计算损失值,直至损失值满足损失停止条件的情况下,即可将当前阶段的识别模型作为目标识别模型。其中,损失停止训练条件具体是指与损失值进行比较的条件,在损失值小于损失值阈值时,即为满足损失停止条件。
实际应用中,在筛选出目标正样本和目标负样本后,结合目标正样本和目标负样本对模型进行训练,可以通过下述损失函数进行训练,该损失函数为:
Figure BDA0003900946060000111
其中,L表述损失值,t*表示词单元对应的标签,
Figure BDA0003900946060000112
表示所有目标正样本,
Figure BDA0003900946060000113
表示所有目标负样本中的任意一个负样本。
也就是说,在基于正/负样本训练识别模型时,可以将正/负样本中的词单元输入到识别模型进行处理,得到模型输出的预测标签,之后基于预测标签与正/负样本中的标签计算损失值,直至损失值满足条件即可得到目标识别模型。
综上,通过目标正负样本对识别模型进行充足的训练,可以使得识别模型具有较高的识别能力,以此获得满足使用场景的识别模型。
此外,在从至少一个负样本中筛选出目标负样本后,考虑到负样本中还存在一些可能标注准确的负样本,以及标注错误的负样本,为了能够对样本进行充分使用,可以对剩余的负样本进行修正,本实施例中,具体实现方式如下:
在所述至少一个负样本中确定错误负样本,并针对所述错误负样本创建纠正任务;通过执行所述纠正任务,将所述错误负样本转换为待检测正样本;在所述待检测目标正样本满足训练模型条件的情况下,将所述待检测正样本添加至正样本集合。
具体的,错位负样本具体是指至少一个负样本中标注可能错误的负样本,相应的,纠正任务具体是指对错误负样本进行纠正的任务,该纠正任务可以是人工纠正任务,或者分类器重新标注纠正任务;相应的,待检测正样本具体是指对错误负样本进行纠正处理后得到的标注准确且为命名实体的正样本。相应的,正样本集合具体是指存储目标正样本的集合。
基于此,在从至少一个负样本中确定目标正样本后,可以从中确定错误负样本,即为可能标注错误的负样本,之后针对错误负样本创建纠正任务,以实现对每个错误负样本进行纠正处理,纠正处理后,将得到标注错误经过修正后的待检测正样本。之后在待检测正样本满足训练模型条件的情况下,说明该样本可以用于模型训练,则将其加入至正样本集合即可。
沿用上例,在确定负样本1和负样本3为可能标注错误的负样本后,可以针对负样本1和负样本3创建分类器纠正任务,即将负样本中的词单元重新输入到分类器进行打标,得到新的标签,并判断新的标签是否与旧的标签一致,如果一致则说明该负样本标注正确,但是在筛选出漏掉,可以将该负样本添加到负样本集合。如果不一致,说明该负样本标注错误,因此可以将新的标签作为负样本对应的标签,结合标签和词单元组成待检测正样本,并在满足模型训练条件的情况下,可以将其加入正样本集合。
综上,通过对剩余的负样本进行纠正,可以实现对所有的负样本进行使用,从而保证了样本丰富度。
综上所述,为了能够提高负样本标注的准确度,可以在获取到待处理语句后,对其进行预处理以构建待处理语句对应的词组,并确定词组中包含的词单元对应的特征标签,以此初步完成打标处理操作;此后根据特征标签和词组,构建出至少一个负样本和目标正样本,其中目标正样本可以直接作为正样本使用,而至少一个负样本中可能存在标注不准确的问题,因此可以通过计算目标正样本与每个负样本之间的样本相似度,确定每个负样本与目标正样本之间的相似程度,以根据相似程度分析出负样本是否与任意一个目标正样本相近,从而可以确定该负样本是否为标注正确的负样本,以实现在至少一个负样本中确定标注更加准确的目标负样本,从而提高样本质量,并以此结合目标正样本进行识别模型训练,可以避免模型过拟合,提高模型识别精度。
与上述方法实施例相对应,本说明书还提供了样本处理装置实施例,图3示出了本说明书一个实施例提供的一种样本处理装置的结构示意图。如图3所示,该装置包括:
获取模块302,被配置为获取待处理语句;
确定模块304,被配置为构建所述待处理语句对应的词组,并确定所述词组中每个词单元对应的特征标签;
构建模块306,被配置为根据所述特征标签和所述词组,构建至少一个负样本和目标正样本;
计算模块308,被配置为计算所述目标正样本与每个负样本的样本相似度,根据所述样本相似度在所述至少一个负样本中确定目标负样本。
一个可选的实施例中,所述确定模块304进一步被配置为:
构建所述待处理文本中每个字单元对应的字单元特征;按照所述词组中每个词单元对应的字单元组成关系,对所述字单元特征进行拼接,获得每个词单元对应的词单元特征;将所述词单元特征输入至标签分类器进行处理,获得每个词单元对应的特征标签。
一个可选的实施例中,所述构建模块306进一步被配置为:
对所述特征标签进行分类,根据分类结果确定实体特征标签和非实体特征标签;在所述词组中确定所述实体特征标签对应的基准词单元,以及所述非实体特征标签对应的关联词单元;根据所述基准词单元和所述实体特征标签生成所述目标正样本,以及根据所述关联词单元和所述非实体特征标签生成所述至少一个负样本。
一个可选的实施例中,所述至少一个负样本中的任意一个负样本与所述目标正样本之间的样本相似度,包括:
在所述负样本中提取第一词单元,以及在所述目标正样本中提取第二词单元;确定所述第一词单元对应的第一词单元特征,和所述第二词单元对应的第二词单元特征;根据所述第一词单元特征和所述第二词单元特征,计算所述负样本与所述目标正样本之间的样本相似度。
一个可选的实施例中,所述确定模块304进一步被配置为:
生成所述待处理语句对应的字单元序列;按照预设词单元长度对所述字单元序列进行划分,根据划分结果获得至少两个词单元;基于所述至少两个词单元构建所述词组。
一个可选的实施例中,所述计算模块308进一步被配置为:
根据所述样本相似度对所述至少一个负样本进行排序,获得负样本序列;在所述负样本序列中选择设定数量的负样本作为所述目标负样本。
一个可选的实施例中,所述样本处理装置,还包括:
训练模块,被配置为基于所述目标正样本和所述目标正样本训练识别模型,根据训练结果计算损失值;在所述损失值满足损失停止训练条件的情况下,将训练后的识别模型作为目标识别模型。
一个可选的实施例中,所述样本处理装置,还包括:
检测模块,被配置为在所述至少一个负样本中确定错误负样本,并针对所述错误负样本创建纠正任务;通过执行所述纠正任务,将所述错误负样本转换为待检测正样本;在所述待检测目标正样本满足训练模型条件的情况下,将所述待检测正样本添加至正样本集合。
综上所述,为了能够提高负样本标注的准确度,可以在获取到待处理语句后,对其进行预处理以构建待处理语句对应的词组,并确定词组中包含的词单元对应的特征标签,以此初步完成打标处理操作;此后根据特征标签和词组,构建出至少一个负样本和目标正样本,其中目标正样本可以直接作为正样本使用,而至少一个负样本中可能存在标注不准确的问题,因此可以通过计算目标正样本与每个负样本之间的样本相似度,确定每个负样本与目标正样本之间的相似程度,以根据相似程度分析出负样本是否与任意一个目标正样本相近,从而可以确定该负样本是否为标注正确的负样本,以实现在至少一个负样本中确定标注更加准确的目标负样本,从而提高样本质量,并以此结合目标正样本进行识别模型训练,可以避免模型过拟合,提高模型识别精度。
上述为本实施例的一种样本处理装置的示意性方案。需要说明的是,该样本处理装置的技术方案与上述的样本处理方法的技术方案属于同一构思,样本处理装置的技术方案未详细描述的细节内容,均可以参见上述样本处理方法的技术方案的描述。
与上述实施例相对应,本实施例还提供了一种识别模型训练方法,图4示出了本说明书一个实施例提供的一种识别模型训练方法的流程图。如图4所示,该方法包括:
步骤S402,获取待处理语句,并构建所述待处理语句对应的词组;
步骤S404,确定所述词组中每个词单元对应的特征标签,根据所述特征标签和所述词组,构建至少一个负样本和目标正样本;
步骤S406,计算所述目标正样本与每个负样本的样本相似度,根据所述样本相似度在所述至少一个负样本中确定目标负样本;
步骤S408,基于所述目标正样本和所述目标正样本训练初始识别模型,直至获得满足训练停止条件的目标识别模型。
需要说明的是,本实施例提供的识别模型训练方法与上述实施例中的样本处理方法相近,相同或相应的描述内容均参见上述实施例,本实施例在此不作过多赘述。
一个可选的实施例中,确定所述词组中每个词单元对应的特征标签,包括:
构建所述待处理文本中每个字单元对应的字单元特征;按照所述词组中每个词单元对应的字单元组成关系,对所述字单元特征进行拼接,获得每个词单元对应的词单元特征;将所述词单元特征输入至标签分类器进行处理,获得每个词单元对应的特征标签。
一个可选的实施例中,根据所述特征标签和所述词组,构建至少一个负样本和目标正样本,包括:
对所述特征标签进行分类,根据分类结果确定实体特征标签和非实体特征标签;在所述词组中确定所述实体特征标签对应的基准词单元,以及所述非实体特征标签对应的关联词单元;根据所述基准词单元和所述实体特征标签生成所述目标正样本,以及根据所述关联词单元和所述非实体特征标签生成所述至少一个负样本。
一个可选的实施例中,至少一个负样本中的任意一个负样本与所述目标正样本之间的样本相似度,包括:
在所述负样本中提取第一词单元,以及在所述目标正样本中提取第二词单元;确定所述第一词单元对应的第一词单元特征,和所述第二词单元对应的第二词单元特征;根据所述第一词单元特征和所述第二词单元特征,计算所述负样本与所述目标正样本之间的样本相似度。
一个可选的实施例中,构建所述待处理语句对应的词组,包括:
生成所述待处理语句对应的字单元序列;按照预设词单元长度对所述字单元序列进行划分,根据划分结果获得至少两个词单元;基于所述至少两个词单元构建所述词组。
一个可选的实施例中,根据所述样本相似度在所述至少一个负样本中确定目标负样本,包括:
根据所述样本相似度对所述至少一个负样本进行排序,获得负样本序列;在所述负样本序列中选择设定数量的负样本作为所述目标负样本。
一个可选的实施例中,基于所述目标正样本和所述目标正样本训练初始识别模型,直至获得满足训练停止条件的目标识别模型,包括:
基于所述目标正样本和所述目标正样本训练识别模型,根据训练结果计算损失值;在所述损失值满足损失停止训练条件的情况下,将训练后的识别模型作为目标识别模型。
一个可选的实施例中,还包括:
在所述至少一个负样本中确定错误负样本,并针对所述错误负样本创建纠正任务;通过执行所述纠正任务,将所述错误负样本转换为待检测正样本;在所述待检测目标正样本满足训练模型条件的情况下,将所述待检测正样本添加至正样本集合。
综上所述,为了能够提高负样本标注的准确度,可以在获取到待处理语句后,对其进行预处理以构建待处理语句对应的词组,并确定词组中包含的词单元对应的特征标签,以此初步完成打标处理操作;此后根据特征标签和词组,构建出至少一个负样本和目标正样本,其中目标正样本可以直接作为正样本使用,而至少一个负样本中可能存在标注不准确的问题,因此可以通过计算目标正样本与每个负样本之间的样本相似度,确定每个负样本与目标正样本之间的相似程度,以根据相似程度分析出负样本是否与任意一个目标正样本相近,从而可以确定该负样本是否为标注正确的负样本,以实现在至少一个负样本中确定标注更加准确的目标负样本,从而提高样本质量,并以此结合目标正样本进行识别模型训练,可以避免模型过拟合,提高模型识别精度。
与上述方法实施例相对应,本说明书还提供了识别模型训练装置实施例,图5示出了本说明书一个实施例提供的一种识别模型训练装置的结构示意图。如图5所示,该装置包括:
获取语句模块502,被配置为获取待处理语句,并构建所述待处理语句对应的词组;
确定标签模块504,被配置为确定所述词组中每个词单元对应的特征标签,根据所述特征标签和所述词组,构建至少一个负样本和目标正样本;
计算相似度模块506,被配置为计算所述目标正样本与每个负样本的样本相似度,根据所述样本相似度在所述至少一个负样本中确定目标负样本;
训练模型模块508,被配置为基于所述目标正样本和所述目标正样本训练初始识别模型,直至获得满足训练停止条件的目标识别模型。
一个可选的实施例中,确定标签模块504进一步被配置为:
构建所述待处理文本中每个字单元对应的字单元特征;按照所述词组中每个词单元对应的字单元组成关系,对所述字单元特征进行拼接,获得每个词单元对应的词单元特征;将所述词单元特征输入至标签分类器进行处理,获得每个词单元对应的特征标签。
一个可选的实施例中,确定标签模块504进一步被配置为:
对所述特征标签进行分类,根据分类结果确定实体特征标签和非实体特征标签;在所述词组中确定所述实体特征标签对应的基准词单元,以及所述非实体特征标签对应的关联词单元;根据所述基准词单元和所述实体特征标签生成所述目标正样本,以及根据所述关联词单元和所述非实体特征标签生成所述至少一个负样本。
一个可选的实施例中,至少一个负样本中的任意一个负样本与所述目标正样本之间的样本相似度,包括:
在所述负样本中提取第一词单元,以及在所述目标正样本中提取第二词单元;确定所述第一词单元对应的第一词单元特征,和所述第二词单元对应的第二词单元特征;根据所述第一词单元特征和所述第二词单元特征,计算所述负样本与所述目标正样本之间的样本相似度。
一个可选的实施例中,获取语句模块502进一步被配置为:
生成所述待处理语句对应的字单元序列;按照预设词单元长度对所述字单元序列进行划分,根据划分结果获得至少两个词单元;基于所述至少两个词单元构建所述词组。
一个可选的实施例中,计算相似度模块506进一步被配置为:
根据所述样本相似度对所述至少一个负样本进行排序,获得负样本序列;在所述负样本序列中选择设定数量的负样本作为所述目标负样本。
一个可选的实施例中,训练模型模块508进一步被配置为:
基于所述目标正样本和所述目标正样本训练识别模型,根据训练结果计算损失值;在所述损失值满足损失停止训练条件的情况下,将训练后的识别模型作为目标识别模型。
一个可选的实施例中,识别模型训练装置,还包括:
检测样本模块,被配置为在所述至少一个负样本中确定错误负样本,并针对所述错误负样本创建纠正任务;通过执行所述纠正任务,将所述错误负样本转换为待检测正样本;在所述待检测目标正样本满足训练模型条件的情况下,将所述待检测正样本添加至正样本集合。
综上所述,为了能够提高负样本标注的准确度,可以在获取到待处理语句后,对其进行预处理以构建待处理语句对应的词组,并确定词组中包含的词单元对应的特征标签,以此初步完成打标处理操作;此后根据特征标签和词组,构建出至少一个负样本和目标正样本,其中目标正样本可以直接作为正样本使用,而至少一个负样本中可能存在标注不准确的问题,因此可以通过计算目标正样本与每个负样本之间的样本相似度,确定每个负样本与目标正样本之间的相似程度,以根据相似程度分析出负样本是否与任意一个目标正样本相近,从而可以确定该负样本是否为标注正确的负样本,以实现在至少一个负样本中确定标注更加准确的目标负样本,从而提高样本质量,并以此结合目标正样本进行识别模型训练,可以避免模型过拟合,提高模型识别精度。
上述为本实施例的一种识别模型训练装置的示意性方案。需要说明的是,该识别模型训练装置的技术方案与上述的识别模型训练方法的技术方案属于同一构思,识别模型训练装置的技术方案未详细描述的细节内容,均可以参见上述识别模型训练方法的技术方案的描述。
下述结合附图6,以本说明书提供的样本处理方法在文本识别场景中的应用为例,对所述样本处理方法进行进一步说明。其中,图6示出了本说明书一个实施例提供的一种文本处理过程的流程图,具体包括以下步骤:
步骤S602,获取待处理语句。
步骤S604,生成待处理语句对应的字单元序列。
步骤S606,按照预设词单元长度对字单元序列进行划分,根据划分结果获得至少两个词单元。
步骤S608,基于至少两个词单元构建词组。
步骤S610,构建待处理文本中每个字单元对应的字单元特征。
步骤S612,按照词组中每个词单元对应的字单元组成关系,对字单元特征进行拼接,获得每个词单元对应的词单元特征。
步骤S614,将词单元特征输入至标签分类器进行处理,获得每个词单元对应的特征标签。
步骤S616,对特征标签进行分类,根据分类结果确定实体特征标签和非实体特征标签。
步骤S618,在词组中确定实体特征标签对应的基准词单元,以及非实体特征标签对应的关联词单元。
步骤S620,根据基准词单元和实体特征标签生成目标正样本,以及根据关联词单元和非实体特征标签生成至少一个负样本。
步骤S622,计算每个目标正样本与每个负样本的样本相似度。
其中,在负样本中提取第一词单元,以及在目标正样本中提取第二词单元;确定第一词单元对应的第一词单元特征,和第二词单元对应的第二词单元特征;根据第一词单元特征和第二词单元特征,计算负样本与目标正样本之间的样本相似度。
步骤S624,根据样本相似度对至少一个负样本进行排序,获得负样本序列。
步骤S626,在负样本序列中选择设定数量的负样本作为目标负样本。
步骤S628,基于目标正样本和目标正样本训练识别模型,根据训练结果计算损失值。
步骤S630,在损失值满足损失停止训练条件的情况下,将训练后的识别模型作为目标识别模型。
在定位用户感兴趣关联产品场景下,可以通过目标识别模型识别用户输入的搜索语句,确定语句中的命名实体,以根据命名实体确定搜索产品,在推荐搜索产品时,可以选择其关联的其他产品进行推荐。
综上所述,为了能够提高负样本标注的准确度,可以在获取到待处理语句后,对其进行预处理以构建待处理语句对应的词组,并确定词组中包含的词单元对应的特征标签,以此初步完成打标处理操作;此后根据特征标签和词组,构建出至少一个负样本和目标正样本,其中目标正样本可以直接作为正样本使用,而至少一个负样本中可能存在标注不准确的问题,因此可以通过计算目标正样本与每个负样本之间的样本相似度,确定每个负样本与目标正样本之间的相似程度,以根据相似程度分析出负样本是否与任意一个目标正样本相近,从而可以确定该负样本是否为标注正确的负样本,以实现在至少一个负样本中确定标注更加准确的目标负样本,从而提高样本质量,并以此结合目标正样本进行识别模型训练,可以避免模型过拟合,提高模型识别精度。
与上述实施例相对应,本实施例还提供了另一种样本处理方法,其应用于服务端,图7示出了本说明书一个实施例提供的另一种样本处理方法的流程图。如图7所示,该方法包括:
步骤S702,接收用户通过客户端提交的待处理语句;
步骤S704,构建所述待处理语句对应的词组,并确定所述词组中每个词单元对应的特征标签;
步骤S706,根据所述特征标签和所述词组,构建至少一个负样本和目标正样本;
步骤S708,计算所述目标正样本与每个负样本的样本相似度,根据所述样本相似度在所述至少一个负样本中确定目标负样本,并向所述客户端反馈所述目标负样本。
可选地,所述确定所述词组中每个词单元对应的特征标签,包括:
构建所述待处理文本中每个字单元对应的字单元特征;
按照所述词组中每个词单元对应的字单元组成关系,对所述字单元特征进行拼接,获得每个词单元对应的词单元特征;
将所述词单元特征输入至标签分类器进行处理,获得每个词单元对应的特征标签。
可选地,所述根据所述特征标签和所述词组,构建至少一个负样本和目标正样本,包括:
对所述特征标签进行分类,根据分类结果确定实体特征标签和非实体特征标签;
在所述词组中确定所述实体特征标签对应的基准词单元,以及所述非实体特征标签对应的关联词单元;
根据所述基准词单元和所述实体特征标签生成所述目标正样本,以及根据所述关联词单元和所述非实体特征标签生成所述至少一个负样本。
可选地,所述至少一个负样本中的任意一个负样本与所述目标正样本之间的样本相似度,包括:
在所述负样本中提取第一词单元,以及在所述目标正样本中提取第二词单元;
确定所述第一词单元对应的第一词单元特征,和所述第二词单元对应的第二词单元特征;
根据所述第一词单元特征和所述第二词单元特征,计算所述负样本与所述目标正样本之间的样本相似度。
可选地,所述构建所述待处理语句对应的词组,包括:
生成所述待处理语句对应的字单元序列;
按照预设词单元长度对所述字单元序列进行划分,根据划分结果获得至少两个词单元;
基于所述至少两个词单元构建所述词组。
可选地,所述根据所述样本相似度在所述至少一个负样本中确定目标负样本,包括:
根据所述样本相似度对所述至少一个负样本进行排序,获得负样本序列;
在所述负样本序列中选择设定数量的负样本作为所述目标负样本。
可选地,所述根据所述样本相似度在所述至少一个负样本中确定目标负样本步骤执行之后,还包括:
基于所述目标正样本和所述目标正样本训练识别模型,根据训练结果计算损失值;
在所述损失值满足损失停止训练条件的情况下,将训练后的识别模型作为目标识别模型。
可选地,所述根据所述样本相似度在所述至少一个负样本中确定目标负样本步骤执行之后,还包括:
在所述至少一个负样本中确定错误负样本,并针对所述错误负样本创建纠正任务;
通过执行所述纠正任务,将所述错误负样本转换为待检测正样本;
在所述待检测目标正样本满足训练模型条件的情况下,将所述待检测正样本添加至正样本集合。
需要说明的是,本实施例提供的另一种样本处理方法与上述的样本处理方法技术方案属于同一构思本实施例未详尽描述的内容均可参见上述实施例,本实施例在此不作过多赘述。
图8示出了根据本说明书一个实施例提供的一种计算设备800的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接,数据库850用于保存数据。
计算设备800还包括接入设备840,接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图8所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备800可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备800还可以是移动式或静止式的服务器。
其中,处理器820用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述样本处理方法或识别模型训练方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的样本处理方法或识别模型训练方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述样本处理方法或识别模型训练方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述样本处理方法或识别模型训练方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的样本处理方法或识别模型训练方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述样本处理方法或识别模型训练方法的技术方案的描述。
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述样本处理方法或识别模型训练方法的步骤。
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的样本处理方法或识别模型训练方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述样本处理方法或识别模型训练方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (13)

1.一种样本处理方法,包括:
获取待处理语句;
构建所述待处理语句对应的词组,并确定所述词组中每个词单元对应的特征标签;
根据所述特征标签和所述词组,构建至少一个负样本和目标正样本;
计算所述目标正样本与每个负样本的样本相似度,根据所述样本相似度在所述至少一个负样本中确定目标负样本。
2.根据权利要求1所述的方法,所述确定所述词组中每个词单元对应的特征标签,包括:
构建所述待处理文本中每个字单元对应的字单元特征;
按照所述词组中每个词单元对应的字单元组成关系,对所述字单元特征进行拼接,获得每个词单元对应的词单元特征;
将所述词单元特征输入至标签分类器进行处理,获得每个词单元对应的特征标签。
3.根据权利要求1所述的方法,所述根据所述特征标签和所述词组,构建至少一个负样本和目标正样本,包括:
对所述特征标签进行分类,根据分类结果确定实体特征标签和非实体特征标签;
在所述词组中确定所述实体特征标签对应的基准词单元,以及所述非实体特征标签对应的关联词单元;
根据所述基准词单元和所述实体特征标签生成所述目标正样本,以及根据所述关联词单元和所述非实体特征标签生成所述至少一个负样本。
4.根据权利要求1所述的方法,所述至少一个负样本中的任意一个负样本与所述目标正样本之间的样本相似度,包括:
在所述负样本中提取第一词单元,以及在所述目标正样本中提取第二词单元;
确定所述第一词单元对应的第一词单元特征,和所述第二词单元对应的第二词单元特征;
根据所述第一词单元特征和所述第二词单元特征,计算所述负样本与所述目标正样本之间的样本相似度。
5.根据权利要求1所述的方法,所述构建所述待处理语句对应的词组,包括:
生成所述待处理语句对应的字单元序列;
按照预设词单元长度对所述字单元序列进行划分,根据划分结果获得至少两个词单元;
基于所述至少两个词单元构建所述词组。
6.根据权利要求1所述的方法,所述根据所述样本相似度在所述至少一个负样本中确定目标负样本,包括:
根据所述样本相似度对所述至少一个负样本进行排序,获得负样本序列;
在所述负样本序列中选择设定数量的负样本作为所述目标负样本。
7.根据权利要求1-6任一项所述的方法,所述根据所述样本相似度在所述至少一个负样本中确定目标负样本步骤执行之后,还包括:
基于所述目标正样本和所述目标正样本训练识别模型,根据训练结果计算损失值;
在所述损失值满足损失停止训练条件的情况下,将训练后的识别模型作为目标识别模型。
8.根据权利要求1-6任一项所述的方法,所述根据所述样本相似度在所述至少一个负样本中确定目标负样本步骤执行之后,还包括:
在所述至少一个负样本中确定错误负样本,并针对所述错误负样本创建纠正任务;
通过执行所述纠正任务,将所述错误负样本转换为待检测正样本;
在所述待检测目标正样本满足训练模型条件的情况下,将所述待检测正样本添加至正样本集合。
9.一种样本处理装置,包括:
获取模块,被配置为获取待处理语句;
确定模块,被配置为构建所述待处理语句对应的词组,并确定所述词组中每个词单元对应的特征标签;
构建模块,被配置为根据所述特征标签和所述词组,构建至少一个负样本和目标正样本;
计算模块,被配置为计算所述目标正样本与每个负样本的样本相似度,根据所述样本相似度在所述至少一个负样本中确定目标负样本。
10.一种识别模型训练方法,包括:
获取待处理语句,并构建所述待处理语句对应的词组;
确定所述词组中每个词单元对应的特征标签,根据所述特征标签和所述词组,构建至少一个负样本和目标正样本;
计算所述目标正样本与每个负样本的样本相似度,根据所述样本相似度在所述至少一个负样本中确定目标负样本;
基于所述目标正样本和所述目标正样本训练初始识别模型,直至获得满足训练停止条件的目标识别模型。
11.一种样本处理方法,应用于服务端,包括:
接收用户通过客户端提交的待处理语句;
构建所述待处理语句对应的词组,并确定所述词组中每个词单元对应的特征标签;
根据所述特征标签和所述词组,构建至少一个负样本和目标正样本;
计算所述目标正样本与每个负样本的样本相似度,根据所述样本相似度在所述至少一个负样本中确定目标负样本,并向所述客户端反馈所述目标负样本。
12.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至8或10或11任意一项所述方法的步骤。
13.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至8或10或11任意一项所述方法的步骤。
CN202211289712.0A 2022-10-20 2022-10-20 样本处理方法以及装置、识别模型训练方法及装置 Pending CN115687917A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211289712.0A CN115687917A (zh) 2022-10-20 2022-10-20 样本处理方法以及装置、识别模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211289712.0A CN115687917A (zh) 2022-10-20 2022-10-20 样本处理方法以及装置、识别模型训练方法及装置

Publications (1)

Publication Number Publication Date
CN115687917A true CN115687917A (zh) 2023-02-03

Family

ID=85065585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211289712.0A Pending CN115687917A (zh) 2022-10-20 2022-10-20 样本处理方法以及装置、识别模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN115687917A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116776887A (zh) * 2023-08-18 2023-09-19 昆明理工大学 一种基于样本相似性计算的负采样远程监督实体识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116776887A (zh) * 2023-08-18 2023-09-19 昆明理工大学 一种基于样本相似性计算的负采样远程监督实体识别方法
CN116776887B (zh) * 2023-08-18 2023-10-31 昆明理工大学 一种基于样本相似性计算的负采样远程监督实体识别方法

Similar Documents

Publication Publication Date Title
CN110096570B (zh) 一种应用于智能客服机器人的意图识别方法及装置
CN113255755B (zh) 一种基于异质融合网络的多模态情感分类方法
CN110633475A (zh) 基于计算机场景的自然语言理解方法、装置、系统和存储介质
WO2020232864A1 (zh) 一种数据处理的方法及相关装置
CN113657115A (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN114495129A (zh) 文字检测模型预训练方法以及装置
CN114691525A (zh) 测试用例的选择方法及装置
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN115687917A (zh) 样本处理方法以及装置、识别模型训练方法及装置
CN112015903B (zh) 题目判重方法、装置、存储介质、计算机设备
CN107783958B (zh) 一种目标语句识别方法及装置
CN116719840A (zh) 一种基于病历后结构化处理的医疗信息推送方法
CN116187304A (zh) 一种基于改进bert的自动文本纠错算法及系统
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质
CN114842301A (zh) 一种图像注释模型的半监督训练方法
CN114782958A (zh) 文本检错模型训练方法、文本检错方法及装置
CN114818718A (zh) 合同文本识别方法及装置
CN113657112A (zh) 解读文章的方法以及装置
CN112528653A (zh) 短文本实体识别方法和系统
CN112784696B (zh) 基于图像识别的唇语识别方法、装置、设备及存储介质
CN116227496B (zh) 一种基于深度学习的电力舆情实体关系抽取方法及系统
CN116012656B (zh) 样本图像的生成方法和图像处理模型的训练方法、装置
CN115618968B (zh) 新意图发现方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination