CN111476256A - 基于半监督学习的模型训练方法、装置及电子设备 - Google Patents

基于半监督学习的模型训练方法、装置及电子设备 Download PDF

Info

Publication number
CN111476256A
CN111476256A CN201910066204.8A CN201910066204A CN111476256A CN 111476256 A CN111476256 A CN 111476256A CN 201910066204 A CN201910066204 A CN 201910066204A CN 111476256 A CN111476256 A CN 111476256A
Authority
CN
China
Prior art keywords
sample
samples
unlabeled
labeled
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910066204.8A
Other languages
English (en)
Inventor
尹凯
崔娜
刘晨璐
张志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201910066204.8A priority Critical patent/CN111476256A/zh
Publication of CN111476256A publication Critical patent/CN111476256A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种基于半监督学习的模型训练方法、装置及电子设备,该方法包括:将各未标注样本输入至基础模型,获取各未标注样本的特征和预测概率分布;根据各未标注样本的特征和预测概率分布,从多个未标注样本中确定至少一个待标注样本,待标注样本为未标注样本中具有不确定性和代表性的样本;根据各标注样本和经过标注后的各待标注样本,对基础模型进行训练;本实施例中,根据基础模型对未标注样本提取的特征和预测得到的预测概率分布,从未标注样本中选择出具有代表性和不确定性的待标注样本,通过向训练样本集中添加具有代表性和不确定性的样本,能够提高模型的准确率。

Description

基于半监督学习的模型训练方法、装置及电子设备
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种基于半监督学习的模型训练方法、装置及电子设备。
背景技术
目前,机器学习被广泛用于解决数据分类问题,例如:文本分类、图像分类等。以文本分类为例,通过采用机器学习算法对训练集中的文本数据进行学习,得到分类模型,该分类模型可用于对新文本数据的类别进行预测。机器学习算法主要分为三类:有监督学习、半监督学习和无监督学习。
其中,有监督学习需要完成对所有样本数据的标注,标注成本最高。无监督学习是使用完全没有标注的样本数据,根据样本数据本身的分布状况进行分类和预测。半监督学习则是使用少量的标注样本数据和大量的未标注样本数据完成模型的训练,适用于具有少量标注样本数据的场景。
图1为半监督学习过程的示意图,如图1所示,首先使用标注样本对基础模型进行训练,并使用基础模型对未标注样本进行预测,得到预测结果,然后从未标注样本数据中选择一部分样本进行标注,以扩充标注样本集,使用扩充后的标注样本数据重新训练模型,以提升模型的准确率。现有技术中,在从未标注样本数据中选择样本进行标注时,通常随机选择样本,或者根据预测结果选择预测概率高的样本,并且将预测结果作为这些样本的标注。
但是,现有技术在选择未标注样本时,选择出的样本中不可避免的存在着预测错误的样本,这些样本将会携带着错误的标注进入到训练集中,从而影响到样本数据的质量,使得模型的准确率降低。
发明内容
本发明实施例提供一种基于半监督学习的模型训练方法、装置及电子设备,用以提高训练模型的准确率。
第一方面,本发明实施例提供一种基于半监督学习的模型训练方法,包括:
获取训练样本集,所述训练样本集包括多个标注样本和多个未标注样本;
将各所述未标注样本输入至基础模型,获取各所述未标注样本的特征和预测概率分布,所述基础模型为根据所述标注样本训练后的模型;
根据各所述未标注样本的特征和预测概率分布,从所述多个未标注样本中确定至少一个待标注样本,所述待标注样本为所述未标注样本中具有不确定性和代表性的样本;
根据各所述标注样本和经过标注后的各所述待标注样本,对所述基础模型进行训练。
可选的,所述根据各所述未标注样本的特征和预测概率分布,从所述多个未标注样本中确定至少一个待标注样本,包括:
根据各所述未标注样本的特征,确定各所述未标注样本的代表性;
根据各所述未标注样本的预测概率分布,确定各所述未标注样本的不确定性;
根据各所述未标注样本的代表性和不确定性,从所述多个未标注样本中确定至少一个待标注样本。
可选的,所述根据各所述未标注样本的特征,确定各所述未标注样本的代表性,包括:
对各所述未标注样本的特征进行聚类,得到至少一个聚类中心;
根据各所述未标注样本与所属的聚类中心之间的距离,确定各所述未标注样本的代表性。
可选的,所述根据各所述未标注样本的预测概率分布,确定各所述未标注样本的不确定性,包括:
根据各所述未标注样本的预测概率分布的熵,确定所述未标注样本的不确定性。
可选的,所述将各所述未标注样本输入至基础模型之前,还包括:
去除所述多个未标注样本中的相似样本和重复样本。
可选的,所述去除所述多个未标注样本中的相似样本和重复样本,包括:
对所述多个未标注样本进行排序;
将排序后的各所述未标注样本,划分为至少一个样本子集,每个样本子集由相邻的未标注样本组成,并且,每个样本子集中的第一个样本与其余样本之间的相似性小于预设阈值;
在每个所述样本子集中,随机选择一个未标注样本进行保留,并将其余的未标注样本去除。
可选的,所述训练样本集中的各样本为文本数据;每个样本子集中的第一个样本与其余样本之间的编辑距离小于预设阈值,所述预设阈值与相比较的两个样本的长度、以及松弛系数相关。
可选的,所述基础模型为卷积神经网络模型。
第二方面,本发明实施例提供一种基于半监督学习的模型训练装置,包括:
获取模块,用于获取训练样本集,所述训练样本集包括多个标注样本和多个未标注样本;
预测模块,用于将各所述未标注样本输入至基础模型,获取各所述未标注样本的特征和预测概率分布,所述基础模型为根据所述标注样本训练后的模型;
选择模块,用于根据各所述未标注样本的特征和预测概率分布,从所述多个未标注样本中确定至少一个待标注样本,所述待标注样本为所述未标注样本中具有不确定性和代表性的样本;
训练模块,用于根据各所述标注样本和经过标注后的各所述待标注样本,对所述基础模型进行训练。
可选的,所述选择模块具体用于:
根据各所述未标注样本的特征,确定各所述未标注样本的代表性;
根据各所述未标注样本的预测概率分布,确定各所述未标注样本的不确定性;
根据各所述未标注样本的代表性和不确定性,从所述多个未标注样本中确定至少一个待标注样本。
可选的,所述选择模块具体用于:
对各所述未标注样本的特征进行聚类,得到至少一个聚类中心;
根据各所述未标注样本与所属的聚类中心之间的距离,确定各所述未标注样本的代表性。
可选的,所述选择模块具体用于:
根据各所述未标注样本的预测概率分布的熵,确定所述未标注样本的不确定性。
可选的,所述装置还包括:
去除模块,用于去除所述多个未标注样本中的相似样本和重复样本。
可选的,所述去除模块具体用于:
对所述多个未标注样本进行排序;
将排序后的各所述未标注样本,划分为至少一个样本子集,每个样本子集由相邻的未标注样本组成,并且,每个样本子集中的第一个样本与其余样本之间的相似性小于预设阈值;
在每个所述样本子集中,随机选择一个未标注样本进行保留,并将其余的未标注样本去除。
可选的,所述训练样本集中的各样本为文本数据;每个样本子集中的第一个样本与其余样本之间的编辑距离小于预设阈值,所述预设阈值与相比较的两个样本的长度、以及松弛系数相关。
可选的,所述基础模型为卷积神经网络模型。
第三方面,本发明实施例提供一种电子设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第一方面任一项所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第一方面任一项所述的方法。
本发明实施例提供的基于半监督学习的模型训练方法、装置及电子设备,该方法包括:获取训练样本集,所述训练样本集包括多个标注样本和多个未标注样本;将各所述未标注样本输入至基础模型,获取各所述未标注样本的特征和预测概率分布,所述基础模型为根据所述标注样本训练后的模型;根据各所述未标注样本的特征和预测概率分布,从所述多个未标注样本中确定至少一个待标注样本,所述待标注样本为所述未标注样本中具有不确定性和代表性的样本;根据各所述标注样本和经过标注后的各所述待标注样本,对所述基础模型进行训练;本实施例中,根据基础模型对未标注样本提取的特征和预测得到的预测概率分布,从未标注样本中选择出具有代表性和不确定性的待标注样本,通过向训练集中添加具有代表性和不确定性的样本,能够提高模型的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为半监督学习过程的示意图;
图2为本发明实施例提供的模型训练方法的流程示意图一;
图3为本发明实施例中样本的预测概率分布的示意图;
图4为本发明实施例提供的选择未标注样本的流程示意图;
图5为本发明实施例提供的模型训练方法的流程示意图二;
图6为本发明实施例提供的去除未标注样本中的相似样本和重复样本的流程示意图;
图7为本发明实施例提供的模型训练装置的结构示意图一;
图8为本发明实施例提供的模型训练装置的结构示意图二;
图9为本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如前所述,半监督学习是使用少量的标注样本数据和大量的未标注样本数据完成模型的训练。结合图1所示的半监督学习过程,首先使用标注样本对基础模型进行训练,并使用基础模型对未标注样本进行预测,得到预测结果,然后从未标注样本数据中选择一部分样本进行标注,以扩充标注样本集,使用扩充后的标注样本数据重新训练模型,以提升模型的准确率。
现有技术中,在从未标注样本数据中选择样本进行标注时,通常随机选择样本,或者根据预测结果选择预测概率高的样本,并且将预测结果作为这些样本的标注。然而,通过上述方式选择出的样本中不可避免的存在着预测错误的样本,这些样本将会携带着错误的标注进入到训练集中,从而影响到样本数据的质量,使得模型的准确率降低。
为了解决上述问题,本发明实施例提供一种基于半监督学习的模型训练方法,对未标注样本的选择过程进行改进,能够根据基础模型对未标注样本提取的特征和预测得到的预测概率分布,从未标注样本中选择出具有代表性和不确定性的待标注样本,通过向训练集中添加具有代表性和不确定性的样本,能够使得模型的准确率得以提升。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图2为本发明实施例提供的模型训练方法的流程示意图一,如图2所示,本实施例的方法包括:
S201:获取训练样本集,所述训练样本集包括多个标注样本和多个未标注样本。
首先说明的是,本发明实施例的模型训练方法具有普适性,可以应用于各种业务领域的分类问题,例如:文本数据分类、图像数据分类、音频数据分类、视频数据分类等。
可以理解的,针对不同的业务领域,本实施例中的训练样本集中的样本形式可以不同。具体的,应用于文本数据分类时,训练样本集中的样本为文本数据;应用于图像数据分类时,训练样本集中的样本为图像数据;应用于音频数据分类时,训练样本集中的样本为音频数据,等等。
以文本分类为例,一个可能的应用场景为,用户通过网络平台发表评论或者提问,网络平台对用户的输入的文本信息进行显示前,需要判断该文本信息是否属于暴力类型、辱骂类型、色情类型等,若属于上述类型,则对该文本信息进行屏蔽不显示。该应用场景下,可以根据训练样本集,训练得到分类模型,该分类模型用于预测输入文本的类型,具体的,该分类模型能够输出该输入文本属于各个类别的概率。
本实施例的模型训练方法,基于半监督学习,训练样本集中包括标注样本和未标注样本,其中,标注样本是指训练样本集中已标注了标签的样本,未标注样本是指训练样本集中未标注标签的样本。标签用于指示一个样本的类别。
另外,本实施例对标注样本和未标注样本在训练样本集中的占比不作具体限定。通常,在半监督学习中,标注样本的数量为少量的,而未标注样本的数量为大量的。
本实施例中的标注样本的标签,可以是人工标注,还可以是其他方式进行标注,本实施例对此不作具体限定。
S202:将各所述未标注样本输入至基础模型,获取各所述未标注样本的特征和预测概率分布,所述基础模型为根据所述标注样本训练后的模型。
本实施例中,在该步骤之前,可以使用标注样本完成基础模型的训练,得到训练后的基础模型。其中,基础模型可以采用现有的机器学习模型的结构。
一种可选的实施方式中,基础模型为卷积神经网络(Convolutional NeuralNetworks,CNN)。卷积神经网络是是一种前馈神经网络,CNN网络的人工神经元可以响应一部分覆盖范围内的周围单元,逐渐被应用到自然语言处理中。卷积神经网络包括输入层、隐含层和输出层,其中,隐含层可以具体包括卷积层、池化层和全连接层。
输入层用于获取输入该网络的样本,卷积层、池化层、全连接层可用于提取该样本的隐含特征,输出层用于根据隐含特征输出该样本的预测结果。对于多分类的卷积神经网络而言,预测结果为该样本属于各个类别的概率。
本实施例中,完成基础模型的训练之后,将各未标注样本输入至基础模型中,基础模型对各未标注样本提取特征,并根据提取的特征进行类别预测,得到各未标注样本的特征和预测概率分布。
其中,未标注样本的特征具体为多维的隐含向量,本实施例对于提取特征的维度不作限定。预测概率分布指示了该未标注样本属于各个类别的概率,图3为本发明实施例中样本的预测概率分布的示意图,如图3所示,以七分类问题为例,预测概率分布中包括了样本分别属于七个类别的概率。
S203:根据各所述未标注样本的特征和预测概率分布,从所述多个未标注样本中确定至少一个待标注样本,所述待标注样本为所述未标注样本中具有不确定性和代表性的样本。
具体的,具有不确定性的样本是指难以被基础模型准确识别的样本,具有代表性的样本是指其特征能够代表所有或者大多数未标注样本分布情况的样本。
本实施例中,从未标注样本中选择出基础模型难以识别的,且在样本分布空间中具有代表性的样本,通过标注具有不确定性和代表性的样本能够很好的提升基础模型的辨别能力,从而提升模型准确度。
具体的,一个样本的不确定性与该样本的预测概率分布相关,一个样本的代表性与该样本的特征以及所有样本的特征分布相关。本实施例中,可以根据各未标注样本的特征和预测概率分布,从未标注样本中选择出具有代表性和不确定性的样本,作为待标注样本。
需要说明的是,基于各未标注样本的特征和预测概率分布,选择具有不确定性和代表性的样本,可以有多种实施方式,下面仅以其中一种可选的实施方式为例进行描述。
图4为本发明实施例提供的选择未标注样本的流程示意图,如图4所示,包括:
S2031:根据各所述未标注样本的特征,确定各所述未标注样本的代表性。
本实施例中,基础模型提取的各未标注样本的特征能够很好的表征样本的特征信息,将各未标注样本的特征映射到高维空间中能够表示样本在高维空间中的位置。根据各未标注样本在高维空间的分布情况,确定各未标注样本的代表性。
一种可选的实施方式中,对各所述未标注样本的特征进行聚类,得到至少一个聚类中心;根据各所述未标注样本与所属的聚类中心之间的距离,确定各所述未标注样本的代表性。
可以理解的,所述距离可以为欧式距离或者余弦距离。本实施例中以余弦距离为例,余弦距离是用向量空间中两个向量夹角的余弦值来衡量两个样本的相似性。即,将每个未标注样本与所属聚类中心之间的余弦距离作为该未标注样本的代表性。
本实施例中,通过聚类算法,确定出各未标注样本所属的类别以及该类别的聚类中心,针对每个未标注样本,计算该未标注样本与其所属类别的聚类中心的余弦距离,余弦距离越大的未标注样本更接近聚类中心,该未标注样本更具有代表性。
S2032:根据各所述未标注样本的预测概率分布,确定各所述未标注样本的不确定性。
本实施例中,基础模型输出的预测概率分布能够代表该样本在模型中的不确定性,因此,根据每个未标注样本的预测概率分布,确定该样本的不确定性。
一种可选的实施方式中,根据各所述未标注样本的预测概率分布的熵,确定所述未标注样本的不确定性。熵是指科学技术上泛指某些物质系统状态的一种量度,或者说明其可能出现的程度。
可以理解的,某未标注样本的预测概率分布越平均,则熵越大,说明未标注样本的不稳定性越大;某未标注样本的预测概率分布越集中,则熵越小,说明未标注样本的不稳定性越小。
S2033:根据各所述未标注样本的代表性和不确定性,从所述多个未标注样本中确定至少一个待标注样本。
具体的,根据每个未标注样本的代表性和不确定性,确定该未标注样本的权重系数。一种可选的实施方式中,权重系数可以采用如下公式表示:
W(i)=Ent(i)*Dis(i)
其中W(i)表示样本i的权重系数,Ent(i)表示样本i的不确定性,Dis(i)表示样本i的代表性。
然后,根据各所述未标注样本的权重系数,从所述多个未标注样本中确定至少一个待标注样本。具体的,选择出权重系数高的预设数量的未标注样本
S204:根据各所述标注样本和经过标注后的各所述待标注样本,对所述基础模型进行训练。
本实施例中,按照上述方式,根据各所述未标注样本的特征和预测概率分布,选择出待标注样本后,对待标注样本进行标注,使用标注样本和经过标注的待标注样本对基础模型进行重新训练,以提高模型的准确率。
需要说明的是,对待标注样本进行标识时,可以采用人工标注,还可以采用其他方式标注,本发明实施例不作具体限定。可以理解的,采用人工标注,能够保证标注准确性。
步骤S203中选择出的待标注样本是具有不确定性和代表性的,具有不确定性的样本是基础模型难以识别的样本,具有代表性的样本是最能够表征未标注样本分布的样本,对难以识别的样本和具有代表性的样本进行标注后作为已标注样本,对基础模型重新训练能够提高模型的准确率。
可以理解的,本实施例中的S201至S204的过程可以重复执行多次,直至基础模型的准确率收敛或者达到预设的结束条件。
本实施例提供的基于半监督学习的模型训练方法,获取训练样本集,所述训练样本集包括多个标注样本和多个未标注样本;将各所述未标注样本输入至基础模型,获取各所述未标注样本的特征和预测概率分布,所述基础模型为根据所述标注样本训练后的模型;根据各所述未标注样本的特征和预测概率分布,从所述多个未标注样本中确定至少一个待标注样本,所述待标注样本为所述未标注样本中具有不确定性和代表性的样本;根据各所述标注样本和经过标注后的各所述待标注样本,对所述基础模型进行训练;本实施例中,根据基础模型对未标注样本提取的特征和预测得到的预测概率分布,从未标注样本中选择出具有代表性和不确定性的待标注样本,通过向训练集中添加具有代表性和不确定性的样本,能够提高模型的准确率。
图5为本发明实施例提供的模型训练方法的流程示意图二,如图5所示,包括:
S501:获取训练样本集,所述训练样本集包括多个标注样本和多个未标注样本。
S502:使用所述标注样本对基础模型进行训练,得到训练后的基础模型,所述基础模型为卷积神经网络模型。
S503:去除所述多个未标注样本中的相似样本和重复样本。
S504:将各所述未标注样本输入至基础模型,获取各所述未标注样本的特征和预测概率分布,所述基础模型为根据所述标注样本训练后的模型。
S505:根据各所述未标注样本的特征,确定各所述未标注样本的代表性。
S506:根据各所述未标注样本的预测概率分布,确定各所述未标注样本的不确定性。
S507:根据各所述未标注样本的代表性和不确定性,从所述多个未标注样本中确定至少一个待标注样本。
S508:根据各所述标注样本和经过标注后的各所述待标注样本,对所述基础模型进行训练。
本实施例的具体实施方式与上述实施例类似,此处不作赘述。在上述实施例的基础上,在使用基础模型对各未标注样本进行预测之前,还包括S503:去除所述多个未标注样本中的相似样本和重复样本。
在半监督学习中,由于训练样本集中的未标注样本往往是全量或者随机采样,导致包括大量的相似样本和重复样本,为了避免重复标注大量相似的样本,本实施例中,首先将未标注样本中的重复样本和相似样本去除。
一种可选的实施方式中,通过穷举的方式计算训练样本集中任意两个未标注样本之间的距离,将距离小于阈值的归为一个集合,在每个集合内随机采样出一个或者多个代表样本,将其余样本去除。通过上述方式去除未标注样本中的相似样本和重复样本。
上述方式在应用到文本分类中时,由于计算任意两个未标注样本之间的距离产生的计算量巨大,为了避免该问题,本发明实施例还提供了另一种去除相似样本和重复样本的实施方式。
图6为本发明实施例提供的去除未标注样本中的相似样本和重复样本的流程示意图,如图6所示,包括:
S5031:对所述多个未标注样本进行排序。
具有的排序方式可以根据样本的形式选择,例如:样本为文本形式时,可以按照音序对样本进行排序。比如:四个样本分别为“这件衣服都有什么颜色?”、“这双鞋的号码偏大还是偏小?”、“这件衣服有红色的吗?”、“这双鞋的号码准确吗?”,上述四个样本排序后的顺序为:
“这件衣服都有什么颜色?”
“这件衣服有红色吗?”
“这双鞋的号码偏大还是偏小?”
“这双鞋的号码准确吗?”
S5032:将排序后的各所述未标注样本,划分为至少一个样本子集,每个样本子集由相邻的未标注样本组成,并且,每个样本子集中的第一个样本与其余样本之间的相似性小于预设阈值。
S5033:在每个所述样本子集中,随机选择一个未标注样本进行保留,并将其余的未标注样本去除。
其中,针对不同形式的样本,计算样本之间相似性的方式可以不同。一种可选的实施方式中,当样本为文本形式时,采用样本之间的编辑距离度量两个样本之间的相似性,即划分后的每个样本子集中的第一个样本与其余样本之间的编辑距离小于预设阈值。
所述预设阈值与相比较的两个样本的长度、以及松弛系数相关。预设阈值可以采用如下公式表示:
Threshold(A,B)=α*(Len(A)+Len(B))/2
A,B分别为相比较的两个样本,Len(A)表示样本A的长度,Len(B)表示样本B的长度,α表示松弛系数,默认为0.5。当编辑距离小于两个样本平均距离的一半时认为两个样本是相似样本,松弛系数越大相似样本要求越严格,松弛系数越小,相似样本要求越宽松。
具体实施过程中,将两个指针指分别指向排序后的第一个样本和第二个样本,计算当前两个指针所指样本之间的编辑距离,如果编辑距离小于预设阈值,则认为两个样本之间过于相似,第二个指针向后移动,直到两个样本之间编辑距离大于预设阈值。在所有比对过的样本之间随机选取一个样本保留,并将其余样本删除。然后将第一个指针指向第二个指针的位置,第二个指针向后移动一个位置,重新开始计算,直到所有样本计算结束。
本实施例中,使用编辑距离计算样本相似性,并去除未标注样本中的相似样本和重复样本。大规模预料中,计算样本之间的相似度计算量巨大,通过排序和双指针操作能够降低计算量,快速去除预料中的重复样本和相似样本。进一步的,由于去除了未标注样本中的重复样本和相似样本,使得选择未标注样本进行标注时,避免了选择大量重复样本和相似样本,减少了未标注样本的标注工作量。
下面结合一组实验数据详细描述本实施例的效果。
训练样本集包括800万条文本形式的样本,其中标注样本2万条。实验数据如表1所示,实验组中采用本发明实施例的模型训练方法,在选择未标注样本时选择1000个具有不确定性和代表性的样本;对照组中采用现有技术的模型训练方法,即在选择未标注样本时随机采样1000个样本。
表1
Figure BDA0001955766270000141
如表1所示,采用本实施例的方法训练得到的基础模型,在测试集的准确率为92.74%,在验证集的准确率为88.30%;采用现有技术的方法训练得到的基础模型,在测试集的准确率为91.45%,在验证集的准确率为83.86%。由此可见,采用本实施例的模型训练方法,能够明显提高模型的准确率。
图7为本发明实施例提供的模型训练装置的结构示意图一,如图7所示,本实施例的模型训练装置700,包括:获取模块701、预测模块702、选择模块703和训练模块704。
其中,获取模块701,用于获取训练样本集,所述训练样本集包括多个标注样本和多个未标注样本;
预测模块702,用于将各所述未标注样本输入至基础模型,获取各所述未标注样本的特征和预测概率分布,所述基础模型为根据所述标注样本训练后的模型;
选择模块703,用于根据各所述未标注样本的特征和预测概率分布,从所述多个未标注样本中确定至少一个待标注样本,所述待标注样本为所述未标注样本中具有不确定性和代表性的样本;
训练模块704,用于根据各所述标注样本和经过标注后的各所述待标注样本,对所述基础模型进行训练。
本实施例提供的模型训练装置,可用于执行如图2所示的方法实施例,其实现原理和技术效果类似,此处不再赘述。
图8为本发明实施例提供的模型训练装置的结构示意图二,如图8所示,在图7所示实施例的基础上,本实施例的模型训练装置700,还可以包括:去除模块705。
可选的,所述选择模块703具体用于:
根据各所述未标注样本的特征,确定各所述未标注样本的代表性;
根据各所述未标注样本的预测概率分布,确定各所述未标注样本的不确定性;
根据各所述未标注样本的代表性和不确定性,从所述多个未标注样本中确定至少一个待标注样本。
可选的,所述选择模块703具体用于:
对各所述未标注样本的特征进行聚类,得到至少一个聚类中心;
根据各所述未标注样本与所属的聚类中心之间的距离,确定各所述未标注样本的代表性。
可选的,所述选择模块703具体用于:
根据各所述未标注样本的预测概率分布的熵,确定所述未标注样本的不确定性。
可选的,所述去除模块705,用于去除所述多个未标注样本中的相似样本和重复样本。
可选的,所述去除模块705具体用于:
对所述多个未标注样本进行排序;
将排序后的各所述未标注样本,划分为至少一个样本子集,每个样本子集由相邻的未标注样本组成,并且,每个样本子集中的第一个样本与其余样本之间的相似性小于预设阈值;
在每个所述样本子集中,随机选择一个未标注样本进行保留,并将其余的未标注样本去除。
可选的,所述训练样本集中的各样本为文本数据;每个样本子集中的第一个样本与其余样本之间的编辑距离小于预设阈值,所述预设阈值与相比较的两个样本的长度、以及松弛系数相关。
可选的,所述基础模型为卷积神经网络模型。
本实施例的模型训练装置,可用于执行上述任一方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图9为本发明实施例提供的电子设备的硬件结构示意图,如图9所示,本实施例的电子设备900,包括:至少一个处理器901和存储器902。其中,处理器901、存储器902通过总线903连接。
在具体实现过程中,至少一个处理器901执行所述存储器902存储的计算机执行指令,使得至少一个处理器901执行上述任一方法实施例的技术方案。
处理器901的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述的图9所示的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现上述任一方法实施例的技术方案。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (18)

1.一种基于半监督学习的模型训练方法,其特征在于,包括:
获取训练样本集,所述训练样本集包括多个标注样本和多个未标注样本;
将各所述未标注样本输入至基础模型,获取各所述未标注样本的特征和预测概率分布,所述基础模型为根据所述标注样本训练后的模型;
根据各所述未标注样本的特征和预测概率分布,从所述多个未标注样本中确定至少一个待标注样本,所述待标注样本为所述未标注样本中具有不确定性和代表性的样本;
根据各所述标注样本和经过标注后的各所述待标注样本,对所述基础模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述根据各所述未标注样本的特征和预测概率分布,从所述多个未标注样本中确定至少一个待标注样本,包括:
根据各所述未标注样本的特征,确定各所述未标注样本的代表性;
根据各所述未标注样本的预测概率分布,确定各所述未标注样本的不确定性;
根据各所述未标注样本的代表性和不确定性,从所述多个未标注样本中确定至少一个待标注样本。
3.根据权利要求2所述的方法,其特征在于,所述根据各所述未标注样本的特征,确定各所述未标注样本的代表性,包括:
对各所述未标注样本的特征进行聚类,得到至少一个聚类中心;
根据各所述未标注样本与所属的聚类中心之间的距离,确定各所述未标注样本的代表性。
4.根据权利要求2所述的方法,其特征在于,所述根据各所述未标注样本的预测概率分布,确定各所述未标注样本的不确定性,包括:
根据各所述未标注样本的预测概率分布的熵,确定所述未标注样本的不确定性。
5.根据权利要求1所述的方法,其特征在于,所述将各所述未标注样本输入至基础模型之前,还包括:
去除所述多个未标注样本中的相似样本和重复样本。
6.根据权利要求5所述的方法,其特征在于,所述去除所述多个未标注样本中的相似样本和重复样本,包括:
对所述多个未标注样本进行排序;
将排序后的各所述未标注样本,划分为至少一个样本子集,每个样本子集由相邻的未标注样本组成,并且,每个样本子集中的第一个样本与其余样本之间的相似性小于预设阈值;
在每个所述样本子集中,随机选择一个未标注样本进行保留,并将其余的未标注样本去除。
7.根据权利要求6所述的方法,其特征在于,所述训练样本集中的各样本为文本数据;每个样本子集中的第一个样本与其余样本之间的编辑距离小于预设阈值,所述预设阈值与相比较的两个样本的长度、以及松弛系数相关。
8.根据权利要求1所述的方法,其特征在于,所述基础模型为卷积神经网络模型。
9.一种基于半监督学习的模型训练装置,其特征在于,包括:
获取模块,用于获取训练样本集,所述训练样本集包括多个标注样本和多个未标注样本;
预测模块,用于将各所述未标注样本输入至基础模型,获取各所述未标注样本的特征和预测概率分布,所述基础模型为根据所述标注样本训练后的模型;
选择模块,用于根据各所述未标注样本的特征和预测概率分布,从所述多个未标注样本中确定至少一个待标注样本,所述待标注样本为所述未标注样本中具有不确定性和代表性的样本;
训练模块,用于根据各所述标注样本和经过标注后的各所述待标注样本,对所述基础模型进行训练。
10.根据权利要求9所述的装置,其特征在于,所述选择模块具体用于:
根据各所述未标注样本的特征,确定各所述未标注样本的代表性;
根据各所述未标注样本的预测概率分布,确定各所述未标注样本的不确定性;
根据各所述未标注样本的代表性和不确定性,从所述多个未标注样本中确定至少一个待标注样本。
11.根据权利要求10所述的装置,其特征在于,所述选择模块具体用于:
对各所述未标注样本的特征进行聚类,得到至少一个聚类中心;
根据各所述未标注样本与所属的聚类中心之间的距离,确定各所述未标注样本的代表性。
12.根据权利要求10所述的装置,其特征在于,所述选择模块具体用于:
根据各所述未标注样本的预测概率分布的熵,确定所述未标注样本的不确定性。
13.根据权利要求9所述的装置,其特征在于,还包括:
去除模块,用于去除所述多个未标注样本中的相似样本和重复样本。
14.根据权利要求13所述的装置,其特征在于,所述去除模块具体用于:
对所述多个未标注样本进行排序;
将排序后的各所述未标注样本,划分为至少一个样本子集,每个样本子集由相邻的未标注样本组成,并且,每个样本子集中的第一个样本与其余样本之间的相似性小于预设阈值;
在每个所述样本子集中,随机选择一个未标注样本进行保留,并将其余的未标注样本去除。
15.根据权利要求14所述的装置,其特征在于,所述训练样本集中的各样本为文本数据;每个样本子集中的第一个样本与其余样本之间的编辑距离小于预设阈值,所述预设阈值与相比较的两个样本的长度、以及松弛系数相关。
16.根据权利要求9所述的装置,其特征在于,所述基础模型为卷积神经网络模型。
17.一种电子设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至8任一项所述的方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至8任一项所述的方法。
CN201910066204.8A 2019-01-24 2019-01-24 基于半监督学习的模型训练方法、装置及电子设备 Pending CN111476256A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910066204.8A CN111476256A (zh) 2019-01-24 2019-01-24 基于半监督学习的模型训练方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910066204.8A CN111476256A (zh) 2019-01-24 2019-01-24 基于半监督学习的模型训练方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN111476256A true CN111476256A (zh) 2020-07-31

Family

ID=71743487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910066204.8A Pending CN111476256A (zh) 2019-01-24 2019-01-24 基于半监督学习的模型训练方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111476256A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898613A (zh) * 2020-09-30 2020-11-06 支付宝(杭州)信息技术有限公司 半监督语义分割模型训练方法、识别方法和装置
CN111931912A (zh) * 2020-08-07 2020-11-13 北京推想科技有限公司 网络模型的训练方法及装置,电子设备及存储介质
CN112256881A (zh) * 2020-12-21 2021-01-22 上海冰鉴信息科技有限公司 用户信息分类方法及装置
CN112347930A (zh) * 2020-11-06 2021-02-09 天津市勘察设计院集团有限公司 基于自学习半监督深度神经网络高分影像场景分类方法
CN112529100A (zh) * 2020-12-24 2021-03-19 深圳前海微众银行股份有限公司 多分类模型的训练方法、装置、电子设备及存储介质
CN112560964A (zh) * 2020-12-18 2021-03-26 深圳赛安特技术服务有限公司 基于半监督学习训练中草药病虫害识别模型的方法与系统
CN112668718A (zh) * 2021-01-19 2021-04-16 北京市商汤科技开发有限公司 神经网络训练方法、装置、电子设备以及存储介质
CN112784905A (zh) * 2021-01-26 2021-05-11 北京嘀嘀无限科技发展有限公司 数据样本扩充的方法、装置和电子设备
CN112926621A (zh) * 2021-01-21 2021-06-08 百度在线网络技术(北京)有限公司 数据标注方法、装置、电子设备及存储介质
CN113064973A (zh) * 2021-04-12 2021-07-02 平安国际智慧城市科技股份有限公司 文本分类方法、装置、设备及存储介质
CN113487617A (zh) * 2021-07-26 2021-10-08 推想医疗科技股份有限公司 数据处理方法、装置、电子设备以及存储介质
CN113657510A (zh) * 2021-08-19 2021-11-16 支付宝(杭州)信息技术有限公司 一种有标注价值的数据样本的确定方法及装置
CN114925773A (zh) * 2022-05-30 2022-08-19 阿里巴巴(中国)有限公司 模型训练方法、装置、电子设备以及存储介质
CN115329657A (zh) * 2022-07-06 2022-11-11 中国石油化工股份有限公司 钻井参数优化方法及装置
WO2023083176A1 (zh) * 2021-11-15 2023-05-19 中兴通讯股份有限公司 样本处理方法、设备及计算机可读存储介质
CN117436551A (zh) * 2023-12-18 2024-01-23 杭州宇谷科技股份有限公司 一种智能客服模型的训练方法和系统

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931912A (zh) * 2020-08-07 2020-11-13 北京推想科技有限公司 网络模型的训练方法及装置,电子设备及存储介质
CN111898613B (zh) * 2020-09-30 2020-12-25 支付宝(杭州)信息技术有限公司 半监督语义分割模型训练方法、识别方法和装置
CN111898613A (zh) * 2020-09-30 2020-11-06 支付宝(杭州)信息技术有限公司 半监督语义分割模型训练方法、识别方法和装置
CN112347930B (zh) * 2020-11-06 2022-11-29 天津市勘察设计院集团有限公司 基于自学习半监督深度神经网络高分影像场景分类方法
CN112347930A (zh) * 2020-11-06 2021-02-09 天津市勘察设计院集团有限公司 基于自学习半监督深度神经网络高分影像场景分类方法
CN112560964A (zh) * 2020-12-18 2021-03-26 深圳赛安特技术服务有限公司 基于半监督学习训练中草药病虫害识别模型的方法与系统
CN112256881A (zh) * 2020-12-21 2021-01-22 上海冰鉴信息科技有限公司 用户信息分类方法及装置
CN112529100A (zh) * 2020-12-24 2021-03-19 深圳前海微众银行股份有限公司 多分类模型的训练方法、装置、电子设备及存储介质
CN112529100B (zh) * 2020-12-24 2024-05-28 深圳前海微众银行股份有限公司 多分类模型的训练方法、装置、电子设备及存储介质
CN112668718A (zh) * 2021-01-19 2021-04-16 北京市商汤科技开发有限公司 神经网络训练方法、装置、电子设备以及存储介质
CN112926621B (zh) * 2021-01-21 2024-05-10 百度在线网络技术(北京)有限公司 数据标注方法、装置、电子设备及存储介质
CN112926621A (zh) * 2021-01-21 2021-06-08 百度在线网络技术(北京)有限公司 数据标注方法、装置、电子设备及存储介质
CN112784905A (zh) * 2021-01-26 2021-05-11 北京嘀嘀无限科技发展有限公司 数据样本扩充的方法、装置和电子设备
CN113064973A (zh) * 2021-04-12 2021-07-02 平安国际智慧城市科技股份有限公司 文本分类方法、装置、设备及存储介质
CN113487617A (zh) * 2021-07-26 2021-10-08 推想医疗科技股份有限公司 数据处理方法、装置、电子设备以及存储介质
CN113657510A (zh) * 2021-08-19 2021-11-16 支付宝(杭州)信息技术有限公司 一种有标注价值的数据样本的确定方法及装置
WO2023083176A1 (zh) * 2021-11-15 2023-05-19 中兴通讯股份有限公司 样本处理方法、设备及计算机可读存储介质
CN114925773A (zh) * 2022-05-30 2022-08-19 阿里巴巴(中国)有限公司 模型训练方法、装置、电子设备以及存储介质
CN115329657A (zh) * 2022-07-06 2022-11-11 中国石油化工股份有限公司 钻井参数优化方法及装置
CN115329657B (zh) * 2022-07-06 2023-06-09 中国石油化工股份有限公司 钻井参数优化方法及装置
CN117436551A (zh) * 2023-12-18 2024-01-23 杭州宇谷科技股份有限公司 一种智能客服模型的训练方法和系统

Similar Documents

Publication Publication Date Title
CN111476256A (zh) 基于半监督学习的模型训练方法、装置及电子设备
CN107944020B (zh) 人脸图像查找方法及装置、计算机装置和存储介质
Murray et al. A deep architecture for unified aesthetic prediction
CN111709243A (zh) 一种基于深度学习的知识抽取方法与装置
CN110807086B (zh) 文本数据标注方法及装置、存储介质、电子设备
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN108959474B (zh) 实体关系提取方法
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN112347284A (zh) 一种组合商标图像检索方法
CN111125658A (zh) 识别欺诈用户的方法、装置、服务器和存储介质
CN113902944A (zh) 模型的训练及场景识别方法、装置、设备及介质
Cheng et al. Multi-label few-shot learning for sound event recognition
CN110020638B (zh) 人脸表情识别方法、装置、设备和介质
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
CN113515593A (zh) 基于聚类模型的话题检测方法、装置和计算机设备
CN109657710B (zh) 数据筛选方法、装置、服务器及存储介质
CN113255319B (zh) 模型训练方法、文本分段方法、摘要抽取方法及装置
CN115713082A (zh) 一种命名实体识别方法、装置、设备及存储介质
CN112463964B (zh) 文本分类及模型训练方法、装置、设备及存储介质
CN115063858A (zh) 视频人脸表情识别模型训练方法、装置、设备及存储介质
CN111767710B (zh) 印尼语的情感分类方法、装置、设备及介质
CN112699908B (zh) 标注图片的方法、电子终端、计算机可读存储介质及设备
CN115482427A (zh) 一种模型训练方法、装置、可读存储介质及电子设备
CN114358284A (zh) 一种基于类别信息对神经网络分步训练的方法、装置、介质
CN113297378A (zh) 文本数据标注方法及系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination