CN110188798A - 一种对象分类方法及模型训练方法和装置 - Google Patents

一种对象分类方法及模型训练方法和装置 Download PDF

Info

Publication number
CN110188798A
CN110188798A CN201910350249.8A CN201910350249A CN110188798A CN 110188798 A CN110188798 A CN 110188798A CN 201910350249 A CN201910350249 A CN 201910350249A CN 110188798 A CN110188798 A CN 110188798A
Authority
CN
China
Prior art keywords
classification
sample
training
value
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910350249.8A
Other languages
English (en)
Other versions
CN110188798B (zh
Inventor
李盟
周俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910350249.8A priority Critical patent/CN110188798B/zh
Publication of CN110188798A publication Critical patent/CN110188798A/zh
Application granted granted Critical
Publication of CN110188798B publication Critical patent/CN110188798B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种对象分类方法及模型训练方法和装置,其中,方法可以包括:获取用于训练对象分类模型的标注样本,所述标注样本中包括:至少两个类别的对象;基于所述标注样本训练得到所述对象分类模型;利用所述对象分类模型,对真实样本进行分类预测,得到真实样本中所述至少两个类别的类别分布;确定真实样本的类别分布与标注样本的类别分布之间的差异比较值;若差异比较值超过差异阈值,根据真实样本的类别分布调整所述标注样本中的类别分布;根据调整类别分布之后的标注样本,重新训练对象分类模型。

Description

一种对象分类方法及模型训练方法和装置
技术领域
本公开涉及机器学习技术领域,特别涉及一种对象分类方法及模型训练方法和装置。
背景技术
利用机器学习的手段进行有监督的对象分类,在很多领域均有广泛的应用。例如,对象分类可以包括文本分类、语音分类等。要进行有监督的分类任务,首先需要有一个分类体系,同时在这个分类体系下需要对每个类别标记大量的样本。只有满足了上述两个条件,才可以利用多个类别下的有标记的样本训练对象分类模型,进而通过对象分类模型来完成分类任务。
发明内容
有鉴于此,本说明书一个或多个实施例提供一种对象分类方法及模型训练方法和装置,以提高对象分类的准确度。
具体地,本说明书一个或多个实施例是通过如下技术方案实现的:
第一方面,提供一种对象分类模型的训练方法,所述方法包括:
获取用于训练对象分类模型的标注样本,所述标注样本中包括:至少两个类别的对象;
基于所述标注样本训练得到所述对象分类模型;
利用所述对象分类模型,对真实样本进行分类预测,得到所述真实样本中所述至少两个类别的类别分布;
确定所述真实样本的类别分布与标注样本的类别分布之间的差异比较值;
若所述差异比较值超过差异阈值,根据所述真实样本的类别分布调整所述标注样本中的类别分布;
根据调整类别分布之后的所述标注样本,重新训练所述对象分类模型。
第二方面,提供一种对象分类方法,所述方法包括:
获取待分类的对象集,所述对象集中包括至少两个类别的对象;
利用本说明书任一实施例所述的方法训练得到的对象分类模型,对所述对象集进行分类,得到分类完成的所述至少两个类别的对象。
第三方面,提供一种对象分类模型的训练装置,所述装置包括:
样本处理模块,用于获取用于训练对象分类模型的标注样本,所述标注样本中包括:至少两个类别的对象;
模型训练模块,用于基于所述标注样本训练得到所述对象分类模型;还用于根据分布调整模块调整类别分布之后的所述标注样本,重新训练所述对象分类模型;
分布预测模块,用于利用所述对象分类模型,对真实样本进行分类预测,得到所述真实样本中所述至少两个类别的类别分布;
分布比较模块,用于确定所述真实样本的类别分布与标注样本的类别分布之间的差异比较值;
分布调整模块,用于若所述差异比较值超过差异阈值,根据所述真实样本的类别分布调整所述标注样本中的类别分布。
第四方面,提供一种对象分类装置,所述装置包括:
对象获取模块,用于获取待分类的对象集,所述对象集中包括至少两个类别的对象;
分类处理模块,用于利用本说明书任一实施例所述的方法训练得到的对象分类模型,对对象集进行分类,得到分类完成的所述至少两个类别的对象。
第五方面,提供一种对象分类模型的训练设备,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本说明书任一实施例所述的对象分类模型的训练方法的步骤。
第六方面,提供一种对象分类设备,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本说明书任一实施例所述的对象分类方法的步骤。
本说明书提供的对象分类方法及模型训练方法和装置,通过根据真实样本的类别分布调整所述标注样本中的类别分布,使得标注样本中的类别分布匹配真实样本的类别分布,标注样本更加贴近真实样本的分布,从而利用该标注样本训练的对象分类模型具有更好的分类性能,对象分类的准确率也更高。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例提供的一种对象分类模型的训练方法;
图2为本说明书一个或多个实施例提供的一种样本预处理的流程;
图3为本说明书一个或多个实施例提供的一种对象分类模型的训练方法;
图4为本说明书一个或多个实施例提供的一种对象分类装置的结构示意图;
图5本说明书一个或多个实施例提供的一种对象分类装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本说明书至少一个实施例提供了一种对象分类模型的训练方法,该对象分类模型用于分类的对象,例如可以是语音,或者可以是文本,等。本实施例不限制模型应用的分类对象。
图1示例了本说明书一个或多个实施例提供的一种对象分类模型的训练方法,如图1所示,该方法可以包括如下处理:
在步骤100中,获取用于训练对象分类模型的标注样本。
本实施例中涉及到“标注样本”和“真实样本”。其中,该标注样本可以是真实样本的子集,例如,真实样本可以是1000万个样本,从中选择了10万个样本进行标注,成为标注样本。该标注样本中标注了每一个样本的类别。
所述标注样本中包括:至少两个类别的对象。例如,以对象是文本为例,可以包括类别一和类别二,其中,类别一是“指令类型”,类别二是“结果类型”。
在步骤102中,基于所述标注样本训练得到所述对象分类模型。
对象分类模型的应用场景不同,选择使用的模型也可以不同。
例如,在文本分类的场景中,可以使用GBDT(Gradient Boosting Decision Tree,梯度提升树)模型进行训练。
在步骤104中,利用所述对象分类模型,对真实样本进行分类预测,得到所述真实样本中所述至少两个类别的类别分布。
本步骤中,可以使用步骤102训练得到的模型,预测真实样本的分类。
例如,真实样本可以是1000万个样本,从中选择了10万个样本进行标注,成为标注样本。在根据10万个标注样本训练得到对象分类模型后,再使用该模型预测上述的1000万个样本的类别,预测出该1000万个样本中类别一包括哪些样本,类别二包括哪些样本。
在步骤106中,判断所述真实样本的类别分布与标注样本的类别分布之间的差异比较值,是否超过差异阈值。
本步骤中,所述的“类别分布”指的是各个类别样本之间的分布比例。所述的分布比例可以是各类别的数量比值,或者是各类别的数量加权比值。
例如,真实样本中的类别一包括p1个样本,类别二包括p2个样本,则p1/p2可以称为真实样本的类别分布。
所述的“差异比较值”可以用于真实样本的类别分布与标注样本的类别分布之间的一致性。例如,该“差异比较值”可以是“真实样本的类别分布”与“标注样本的类别分布”两者的比值。当然,具体实施中,该差异比较值也可以采用“比值”以外的其他表示方式,例如,两者的差值。
所述的“差异阈值”可以是设定一个阈值,示例性的,该阈值可以是一个比例范围,若分布比例在该比例范围内,表明真实样本的类别分布与标注样本的类别分布是较为匹配的。否则,若分布比例不在该比例范围内,表明真实样本的类别分布与标注样本的类别分布不匹配,差别较大。
所述的“差异比较值超过差异阈值”,例如可以是,“真实样本的类别分布”与“标注样本的类别分布”两者的比值,是否在预定的比例范围内,若不在该范围内,表示差异比较值超过了差异阈值。
本步骤中,若判断结果为是,继续执行步骤108。
若判断结果为否,继续执行步骤110。
在步骤108中,根据所述真实样本的类别分布,调整所述标注样本中的类别分布。
本步骤中,调整标注样本中的类别分布的方式,包括但不限于:改变标注样本中的各个类别的样本数量,或者,改变标注样本中的各个类别的样本类别权重。调整标注样本的类别分布的标准是,将标注样本中的类别分布向真实样本的类别分布靠拢,尽量与之匹配。
在调整标注样本中的类别分布之后,可以返回执行步骤102,继续根据调整类别分布之后的所述标注样本,重新训练所述对象分类模型。
在步骤110中,获得训练完成的对象分类模型。
若差异比较值未超过差异阈值,表示“真实样本的类别分布”与“标注样本的类别分布”两者较为匹配,比如,真实样本和标注样本中的各个类别之间的数量比例基本是一致的,相差比较小。此时表明训练得到的对象分类模型已经较好的实现了分类效果,得到了训练完成的模型。
本实施例的对象分类模型的训练方法,通过根据真实样本的类别分布调整所述标注样本中的类别分布,使得标注样本中的类别分布匹配真实样本的类别分布,标注样本更加贴近真实样本的分布,从而利用该标注样本训练的对象分类模型具有更好的分类性能,对象分类的准确率也更高。
如下以用于文本分类的对象分类模型为例,描述该模型的训练过程:在该例子中,假设有一批真实样本,从中选择了一部分进行标注,得到标注样本。并且,还假设在该真实样本中包括两个类别,以两个类别的分类为例。
首先,在利用标注样本训练模型之前,可以先对真实样本进行预处理。图2示例了预处理的流程,可以包括如下处理。具体实施中不限制各个步骤之间的执行顺序,例如,步骤202和步骤204的顺序可以颠倒。
在步骤200中,对真实样本进行分词得到分词结果。
例如,可以利用结巴中文分词,对真实样本按照句子粒度分词。
在步骤202中,根据分词结果,得到词与词向量之间的映射关系。
例如,可以根据分词后的词序列训练word2vec模型,从而得到分词得到的每个词word与词向量vector之间的映射关系。
在步骤204中,获得在分词结果中出现频次高于设定频次阈值的特征词表。
例如,所述的特征词表中可以包括:单个词unigram和双词bigram。
在分词结果中,可以统计unigram和bigram的出现频次,该频次是在真实样本中出现的总频次。如果该频次大于设定的频次阈值,则可以将unigram和bigram保存在特征词表中。
通过上述的步骤200至步骤204,获得了每个词word与词向量vector之间的映射关系,还获得了出现频次较高的特征词表,为后续步骤的样本特征向量的转换处理做好了基础。
在步骤206中,基于所述映射关系和所述特征词表,对所述真实样本和标注样本中的每一个样本提取得到对应的特征向量。
本步骤中,对真实样本和标注样本中的每一个样本都要提取对应的特征向量,一个样本对应一个特征向量。
例如,可以先通过结巴中文分词对真实样本和标注样本进行分词。
根据每一个样本的分词结果,构建该样本对应的词特征和词嵌入特征,所述词特征可以包括unigram特征和bigram特征,词嵌入特征可以包括embedding特征。
其中,如果样本中出现的单个词unigram在所述特征词表中,则对该unigram进行编码,得到unigram特征。例如,可以进行one-hot编码。
如果样本中出现的双词bigram在所述特征词表中,则对该bigram进行编码,得到bigram特征。例如,可以进行one-hot编码。
embedding特征的得到可以是:根据前述保存的映射关系,得到每一个样本中的各个词的词向量,并根据所述各个词的词向量确定所述样本的词嵌入特征。例如,可以将各个词的词向量求平均得到embedding特征。
接着,可以将词嵌入特征和词特征进行拼接,得到样本的特征向量。此外,在另一个例子中,在拼接之后还可以进行归一化,得到所述特征向量。
需要说明的是,根据unigram特征、bigram特征和embedding特征拼接,得到一个样本的特征向量,是一个示例。实际实施中并不局限于此。
例如,还可以是根据unigram特征得到特征向量。
又例如,可以根据unigram特征和embedding特征拼接得到特征向量。
再例如,还可以根据unigram特征、bigram特征、trigram特征和embedding特征拼接得到特征向量。
在提取了真实样本和标注样本的每一个样本的特征向量之后,可以根据真实样本和标注样本训练本说明书提供的对象分类模型。
图3示例了一种对象分类模型的训练方法,该方法以通过调整权重的方式调整标注样本的类别分布为例。如图3所示,可以包括:
在步骤300中,分别对标注样本中的至少两个类别的对象赋予类别权重。
例如,标注样本中包括两个类别C1和C2,并且,类别C1的样本数量是s1,类别C2的样本数量是s2。
本步骤中,初始化类别C1的类别权重是w1=1.0,初始化类别C2的类别权重是w2=1.0。
在步骤302中,基于所述类别权重,使用标注样本训练所述对象分类模型。
例如,可以采用GBDT模型。
训练模型的过程可以采用常规的训练方法,不再详述。
在步骤304中,利用所述对象分类模型,对真实样本进行分类预测,得到所述真实样本中两个类别的样本数量。
本步骤中,利用步骤302得到的模型对真实样本中的全部样本做类别预测,最终的预测结果中,真实样本的类别C1的数量是p1,类别C2的数量是p2。
在步骤306中,确定第一数值和第二数值之间的比值,第一数值是所述标注样本的各个类别之间的样本数加权比值,所述第二数值是所述真实样本的各个类别之间的样本数比值。
本步骤中,可以将真实样本的类别C1和类别C2的样本数量计算比值,即p1/p2=r1,将该r2称为第二比值。
可以将标注样本中的类别C1和类别C2的样本数量进行加权后比值,即(s1*w1)/(s2*w2)=r1,将该r1称为第一比值。
再将R=r1/r2确定为差异比较值,即真实样本的类别分布与标注样本的类别分布之间的差异。
在步骤308中,判断所述真实样本的类别分布与标注样本的类别分布之间的差异比较值,是否超过差异阈值。
例如,设定的差异阈值可以是一个范围,判断R是否在该范围内。
一个例子如下:判断(1+e)-1<=R<=1+e,R是否在该范围内。
在步骤310中,若所述差异比较值超过所述差异阈值,则根据所述第二数值和所述标注样本中的各个类别的数量,调整所述标注样本的各个类别的类别权重。
如果差异比较值超过所述差异阈值,例如,R远远大于1,或者远远小于1,则可以根据第二数值和所述标注样本中的各个类别的数量,调整所述标注样本的各个类别的类别权重。如果差异比较值在差异阈值范围内,则可以确定模型训练结束。
例如,如果R在步骤308所述的范围内,即R接近1,表示模型训练时设置的类别权重w1和w2是合理的。否则,如果R远远大于1,说明需要调整权重,例如,当R=r1/r2时,R偏大说明w1偏大,要适当减小w1,例如,可以修改w1=w1/R。如果R远远小于1,说明w1偏小,要适当增大w1。
调整类别权重后,可以基于调整权重后的标注样本重新训练对象分类模型,并使用重新训练的模型预测真实样本的类别分布。同样的,如果预测结果的差异比较值仍然超过差异阈值,则继续调整类别权重重新训练模型。直至差异比较值在差异阈值范围内,则可以确定模型训练结束。
本实施例的对象分类模型的训练方法,通过根据真实样本的类别分布调整所述标注样本中的样本的类别权重,使得标注样本中的类别分布匹配真实样本的类别分布,从而利用该标注样本训练的对象分类模型具有更好的分类性能,对象分类的准确率也更高。
在本说明书提供的另一个例子的对象分类模型的训练方法中,流程与图3类似,区别在于,在调整所述标注样本中的类别分布时,可以采用过采样或欠采样的方式,调整标注样本中的类别分布。
例如,可以将标注样本的各个类别之间的样本数比值称为第三数值,并将第三数值和第二数值之间的比值作为所述差异比较值。若所述差异比较值超过所述差异阈值,则根据所述第二数值,通过过采样或欠采样的方式,调整所述标注样本的各个类别的样本数。比如,在调整样本数量时,可以自动将一个类别的样本数量翻倍,或者,将一个样本的数量缩减预设的比例。
其中,在上述通过过采样或欠采样方式调整样本分布的方式中,模型训练时,标注样本中的各个类别,可以不设置权重,或者也可以设置各个类别的权重相同并且固定不变。再计算第三数值时,就相当于样本数比值,与权重无关。
上述的例子是以标注样本包括两个类别为例,当类别的数量存在两个以上时,假设存在K个类别,可以先将其中的K-1个类别归为一个类别C1,另外一个类别归为类别C2,采用上面实施例提到的训练方法确定各个类别的类别权重。然后,再递归使用该方法调整各个类别的类别权重。具体如下:
将两个以上的类别分为两组,第一组包括一个类别,其余类别作为第二组。将所述第一组和第二组分别作为一个类别,转换为二分类,训练所述对象分类模型。具体的训练方法可以参见本说明书上述任一实施例。
当所述真实样本的类别分布与标注样本的类别分布之间的差异比较值符合差异阈值之后,即确定了两个类别的类别权重,继续对上述的第二组划分为两个组,其中一个组包括一个类别,其余类别作为另一个组,并基于该两个组以二分类重新训练所述对象分类模型。
本说明书实施例还提供了一种对象分类方法,该方法可以使用本说明书任一实施例所述的对象分类模型训练方法得到的模型,进行对象分类。例如,可以获取待分类的对象集,所述对象集中包括至少两个类别的对象。利用本说明书任一实施例提供的对象分类模型,对所述对象集进行分类,得到分类完成的所述至少两个类别的对象。在一个例子中,所述对象可以是文本。
图4为本说明书至少一个实施例提供的对象分类模型的训练装置,该装置可以应用于执行本说明书任一实施例的对象分类模型的训练方法。如图4所示,该装置可以包括:样本处理模块41、模型训练模块42、分布预测模块43、分布比较模块44和分布调整模块45。
样本处理模块41,用于获取用于训练对象分类模型的标注样本,所述标注样本中包括:至少两个类别的对象。
模型训练模块42,用于基于所述标注样本训练得到所述对象分类模型;还用于根据分布调整模块调整类别分布之后的所述标注样本,重新训练所述对象分类模型。
分布预测模块43,用于利用所述对象分类模型,对真实样本进行分类预测,得到所述真实样本中所述至少两个类别的类别分布。
分布比较模块44,用于确定所述真实样本的类别分布与标注样本的类别分布之间的差异比较值。
分布调整模块45,用于若所述差异比较值超过差异阈值,根据所述真实样本的类别分布调整所述标注样本中的类别分布。
在一个例子中,样本处理模块41,还用于在所述基于所述标注样本训练得到所述对象分类模型之前,对所述真实样本进行分词得到分词结果,所述标注样本是真实样本的子集;根据分词结果,得到词与词向量之间的映射关系,并且,获得在分词结果中出现频次高于设定频次阈值的特征词表;基于所述映射关系和所述特征词表,对所述真实样本和标注样本中的每一个样本提取得到对应的特征向量。
在一个例子中,样本处理模块41,在用于基于所述映射关系和所述特征词表,对所述真实样本和标注样本中的每一个样本提取得到对应的特征向量时,包括:对所述每一个样本中出现在所述特征词表的词,进行编码,得到词特征;根据所述映射关系,得到每一个样本中的各个词的词向量,并根据所述各个词的词向量确定所述样本的词嵌入特征;将所述词嵌入特征和所述词特征进行拼接,得到所述样本的特征向量。
在一个例子中,模型训练模块42,具体用于分别对所述标注样本中的至少两个类别的对象赋予类别权重,并基于所述类别权重训练所述对象分类模型;
所述分布比较模块44,具体用于:确定第一数值和第二数值之间的比值作为所述差异比较值,所述第一数值是所述标注样本的各个类别之间的样本数加权比值,所述第二数值是所述真实样本的各个类别之间的样本数比值;
所述分布调整模块45,具体用于:若所述差异比较值超过所述差异阈值,则根据所述第二数值和所述标注样本中的各个类别的数量,调整所述标注样本的各个类别的类别权重。
在一个例子中,分布比较模块44,具体用于:确定第三数值和第二数值之间的比值作为所述差异比较值,所述第三数值是所述标注样本的各个类别之间的样本数比值,所述第二数值是所述真实样本的各个类别之间的样本数比值;
所述分布调整模块45,具体用于:若所述差异比较值超过所述差异阈值,则根据所述第二数值,通过过采样或欠采样的方式,调整所述标注样本的各个类别的样本数。
在一个例子中,模型训练模块42,还用于:当所述标注样本中的对象的类别是两个以上时;将所述两个以上的类别分为两组,第一组包括一个类别,其余类别作为第二组;将所述第一组和第二组分别作为一个类别,转换为二分类,训练所述对象分类模型;当所述真实样本的类别分布与标注样本的类别分布之间的差异比较值符合差异阈值之后,继续对所述第二组划分为两个组,其中一个组包括一个类别,其余类别作为另一个组,并基于该两个组以二分类重新训练所述对象分类模型。
图5为本说明书至少一个实施例提供的对象分类装置,该装置可以应用于执行本说明书任一实施例的对象分类方法。如图5所示,该装置可以包括:对象获取模块51和分类处理模块52。
对象获取模块51,用于获取待分类的对象集,所述对象集中包括至少两个类别的对象;
分类处理模块52,用于利用本说明书任一实施例所述的方法训练得到的对象分类模型,对对象集进行分类,得到分类完成的所述至少两个类别的对象。
本说明书至少一个实施例还提供了一种对象分类模型的训练设备,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本说明书任一实施例所述的对象分类模型的训练方法中的处理步骤。
本说明书至少一个实施例还提供了一种对象分类设备,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本说明书任一实施例所述的对象分类方法的处理步骤。
本说明书至少一个实施例还提供了一种计算机可读存储介质,该介质上存储有计算机程序,该程序被处理器执行时,可以实现本说明书任一实施例所述的对象分类模型的训练方法中的处理步骤,或者可以实现本说明书任一实施例所述的对象分类方法的处理步骤。
上述方法实施例中所示流程中的各个步骤,其执行顺序不限制于流程图中的顺序。此外,各个步骤的描述,可以实现为软件、硬件或者其结合的形式,例如,本领域技术人员可以将其实现为软件代码的形式,可以为能够实现所述步骤对应的逻辑功能的计算机可执行指令。当其以软件的方式实现时,所述的可执行指令可以存储在存储器中,并被设备中的处理器执行。
上述实施例阐明的装置或模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书一个或多个实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于数据采集设备或者数据处理设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开保护的范围之内。

Claims (18)

1.一种对象分类模型的训练方法,所述方法包括:
获取用于训练对象分类模型的标注样本,所述标注样本中包括:至少两个类别的对象;
基于所述标注样本训练得到所述对象分类模型;
利用所述对象分类模型,对真实样本进行分类预测,得到所述真实样本中所述至少两个类别的类别分布;
确定所述真实样本的类别分布与标注样本的类别分布之间的差异比较值;
若所述差异比较值超过差异阈值,根据所述真实样本的类别分布调整所述标注样本中的类别分布;
根据调整类别分布之后的所述标注样本,重新训练所述对象分类模型。
2.根据权利要求1所述的方法,当所述对象是文本时,在所述基于所述标注样本训练得到所述对象分类模型之前,所述方法还包括:
对所述真实样本进行分词得到分词结果,所述标注样本是真实样本的子集;
根据分词结果,得到词与词向量之间的映射关系,并且,获得在分词结果中出现频次高于设定频次阈值的特征词表;
基于所述映射关系和所述特征词表,对所述真实样本和标注样本中的每一个样本提取得到对应的特征向量。
3.根据权利要求2所述的方法,所述基于所述映射关系和所述特征词表,对所述真实样本和标注样本中的每一个样本提取得到对应的特征向量,包括:
对所述每一个样本中出现在所述特征词表的词,进行编码,得到词特征;
根据所述映射关系,得到每一个样本中的各个词的词向量,并根据所述各个词的词向量确定所述样本的词嵌入特征;
将所述词嵌入特征和所述词特征进行拼接,得到所述样本的特征向量。
4.根据权利要求2所述的方法,所述特征词表中包括:单个词和双词。
5.根据权利要求1所述的方法,所述基于所述标注样本训练得到所述对象分类模型,包括:分别对所述标注样本中的至少两个类别的对象赋予类别权重,并基于所述类别权重训练所述对象分类模型;
所述确定真实样本的类别分布与标注样本的类别分布之间的差异比较值,包括:确定第一数值和第二数值之间的比值作为所述差异比较值,所述第一数值是所述标注样本的各个类别之间的样本数加权比值,所述第二数值是所述真实样本的各个类别之间的样本数比值;
所述调整所述标注样本中的类别分布,包括:若所述差异比较值超过所述差异阈值,则根据所述第二数值和所述标注样本中的各个类别的数量,调整所述标注样本的各个类别的类别权重。
6.根据权利要求1所述的方法,
所述确定真实样本的类别分布与标注样本的类别分布之间的差异比较值,包括:确定第三数值和第二数值之间的比值作为所述差异比较值,所述第三数值是所述标注样本的各个类别之间的样本数比值,所述第二数值是所述真实样本的各个类别之间的样本数比值;
所述调整所述标注样本中的类别分布,包括:若所述差异比较值超过所述差异阈值,则根据所述第二数值,通过过采样或欠采样的方式,调整所述标注样本的各个类别的样本数。
7.根据权利要求1所述的方法,当所述标注样本中的对象的类别是两个以上时;所述基于所述标注样本训练得到所述对象分类模型,包括:将所述两个以上的类别分为两组,第一组包括一个类别,其余类别作为第二组;将所述第一组和第二组分别作为一个类别,转换为二分类,训练所述对象分类模型;
当所述真实样本的类别分布与标注样本的类别分布之间的差异比较值符合差异阈值之后,继续对所述第二组划分为两个组,其中一个组包括一个类别,其余类别作为另一个组,并基于该两个组以二分类重新训练所述对象分类模型。
8.一种对象分类方法,所述方法包括:
获取待分类的对象集,所述对象集中包括至少两个类别的对象;
利用权利要求1~7任一所述的方法训练得到的对象分类模型,对所述对象集进行分类,得到分类完成的所述至少两个类别的对象。
9.根据权利要求8所述的方法,所述对象是文本。
10.一种对象分类模型的训练装置,所述装置包括:
样本处理模块,用于获取用于训练对象分类模型的标注样本,所述标注样本中包括:至少两个类别的对象;
模型训练模块,用于基于所述标注样本训练得到所述对象分类模型;还用于根据分布调整模块调整类别分布之后的所述标注样本,重新训练所述对象分类模型;
分布预测模块,用于利用所述对象分类模型,对真实样本进行分类预测,得到所述真实样本中所述至少两个类别的类别分布;
分布比较模块,用于确定所述真实样本的类别分布与标注样本的类别分布之间的差异比较值;
分布调整模块,用于若所述差异比较值超过差异阈值,根据所述真实样本的类别分布调整所述标注样本中的类别分布。
11.根据权利要求10所述的装置,
所述样本处理模块,还用于在所述基于所述标注样本训练得到所述对象分类模型之前,对所述真实样本进行分词得到分词结果,所述标注样本是真实样本的子集;根据分词结果,得到词与词向量之间的映射关系,并且,获得在分词结果中出现频次高于设定频次阈值的特征词表;基于所述映射关系和所述特征词表,对所述真实样本和标注样本中的每一个样本提取得到对应的特征向量。
12.根据权利要求11所述的装置,
所述样本处理模块,在用于基于所述映射关系和所述特征词表,对所述真实样本和标注样本中的每一个样本提取得到对应的特征向量时,包括:对所述每一个样本中出现在所述特征词表的词,进行编码,得到词特征;根据所述映射关系,得到每一个样本中的各个词的词向量,并根据所述各个词的词向量确定所述样本的词嵌入特征;将所述词嵌入特征和所述词特征进行拼接,得到所述样本的特征向量。
13.根据权利要求10所述的装置,
所述模型训练模块,具体用于分别对所述标注样本中的至少两个类别的对象赋予类别权重,并基于所述类别权重训练所述对象分类模型;
所述分布比较模块,具体用于:确定第一数值和第二数值之间的比值作为所述差异比较值,所述第一数值是所述标注样本的各个类别之间的样本数加权比值,所述第二数值是所述真实样本的各个类别之间的样本数比值;
所述分布调整模块,具体用于:若所述差异比较值超过所述差异阈值,则根据所述第二数值和所述标注样本中的各个类别的数量,调整所述标注样本的各个类别的类别权重。
14.根据权利要求10所述的装置,
所述分布比较模块,具体用于:确定第三数值和第二数值之间的比值作为所述差异比较值,所述第三数值是所述标注样本的各个类别之间的样本数比值,所述第二数值是所述真实样本的各个类别之间的样本数比值;
所述分布调整模块,具体用于:若所述差异比较值超过所述差异阈值,则根据所述第二数值,通过过采样或欠采样的方式,调整所述标注样本的各个类别的样本数。
15.根据权利要求10所述的装置,
所述模型训练模块,还用于:当所述标注样本中的对象的类别是两个以上时;将所述两个以上的类别分为两组,第一组包括一个类别,其余类别作为第二组;将所述第一组和第二组分别作为一个类别,转换为二分类,训练所述对象分类模型;当所述真实样本的类别分布与标注样本的类别分布之间的差异比较值符合差异阈值之后,继续对所述第二组划分为两个组,其中一个组包括一个类别,其余类别作为另一个组,并基于该两个组以二分类重新训练所述对象分类模型。
16.一种对象分类装置,所述装置包括:
对象获取模块,用于获取待分类的对象集,所述对象集中包括至少两个类别的对象;
分类处理模块,用于利用权利要求10~15任一所述的方法训练得到的对象分类模型,对所述对象集进行分类,得到分类完成的所述至少两个类别的对象。
17.一种对象分类模型的训练设备,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至7任一所述的对象分类模型的训练方法的步骤。
18.一种对象分类设备,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求8或9所述的对象分类方法的步骤。
CN201910350249.8A 2019-04-28 2019-04-28 一种对象分类方法及模型训练方法和装置 Active CN110188798B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910350249.8A CN110188798B (zh) 2019-04-28 2019-04-28 一种对象分类方法及模型训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910350249.8A CN110188798B (zh) 2019-04-28 2019-04-28 一种对象分类方法及模型训练方法和装置

Publications (2)

Publication Number Publication Date
CN110188798A true CN110188798A (zh) 2019-08-30
CN110188798B CN110188798B (zh) 2023-08-08

Family

ID=67715267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910350249.8A Active CN110188798B (zh) 2019-04-28 2019-04-28 一种对象分类方法及模型训练方法和装置

Country Status (1)

Country Link
CN (1) CN110188798B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112116028A (zh) * 2020-09-29 2020-12-22 联想(北京)有限公司 模型决策解释实现方法、装置及计算机设备
CN112269877A (zh) * 2020-10-27 2021-01-26 维沃移动通信有限公司 数据标注方法及装置
CN113761181A (zh) * 2020-06-15 2021-12-07 北京京东振世信息技术有限公司 一种文本分类方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650780A (zh) * 2016-10-18 2017-05-10 腾讯科技(深圳)有限公司 数据处理方法及装置、分类器训练方法及系统
CN107229614A (zh) * 2017-06-29 2017-10-03 百度在线网络技术(北京)有限公司 用于分类数据的方法和装置
CN108573047A (zh) * 2018-04-18 2018-09-25 广东工业大学 一种中文文本分类模型的训练方法及装置
CN108573040A (zh) * 2018-04-08 2018-09-25 西北工业大学 一种基于目标分布的样本集优化算法
CN108628971A (zh) * 2018-04-24 2018-10-09 深圳前海微众银行股份有限公司 不均衡数据集的文本分类方法、文本分类器及存储介质
CN108875072A (zh) * 2018-07-05 2018-11-23 第四范式(北京)技术有限公司 文本分类方法、装置、设备以及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650780A (zh) * 2016-10-18 2017-05-10 腾讯科技(深圳)有限公司 数据处理方法及装置、分类器训练方法及系统
CN107229614A (zh) * 2017-06-29 2017-10-03 百度在线网络技术(北京)有限公司 用于分类数据的方法和装置
CN108573040A (zh) * 2018-04-08 2018-09-25 西北工业大学 一种基于目标分布的样本集优化算法
CN108573047A (zh) * 2018-04-18 2018-09-25 广东工业大学 一种中文文本分类模型的训练方法及装置
CN108628971A (zh) * 2018-04-24 2018-10-09 深圳前海微众银行股份有限公司 不均衡数据集的文本分类方法、文本分类器及存储介质
CN108875072A (zh) * 2018-07-05 2018-11-23 第四范式(北京)技术有限公司 文本分类方法、装置、设备以及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761181A (zh) * 2020-06-15 2021-12-07 北京京东振世信息技术有限公司 一种文本分类方法和装置
CN112116028A (zh) * 2020-09-29 2020-12-22 联想(北京)有限公司 模型决策解释实现方法、装置及计算机设备
CN112116028B (zh) * 2020-09-29 2024-04-26 联想(北京)有限公司 模型决策解释实现方法、装置及计算机设备
CN112269877A (zh) * 2020-10-27 2021-01-26 维沃移动通信有限公司 数据标注方法及装置

Also Published As

Publication number Publication date
CN110188798B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CN113657465B (zh) 预训练模型的生成方法、装置、电子设备和存储介质
CN106294344B (zh) 视频检索方法和装置
CN108831445A (zh) 四川方言识别方法、声学模型训练方法、装置及设备
CN112926405A (zh) 一种安全帽佩戴检测方法、系统、设备及存储介质
Hong et al. Sentiment analysis with deeply learned distributed representations of variable length texts
CN110188798A (zh) 一种对象分类方法及模型训练方法和装置
CN105893478A (zh) 一种标签提取方法及设备
CN108051660A (zh) 一种变压器故障组合诊断模型建立方法及诊断方法
CN109189767A (zh) 数据处理方法、装置、电子设备及存储介质
CN111709630A (zh) 语音质检方法、装置、设备及存储介质
CN108648747A (zh) 语种识别系统
CN109491914A (zh) 基于不平衡学习策略高影响缺陷报告预测方法
CN102156885A (zh) 基于级联式码本生成的图像分类方法
CN109284374A (zh) 用于确定实体类别的方法、装置、设备以及计算机可读存储介质
CN113742488B (zh) 基于多任务学习的嵌入式知识图谱补全方法和装置
CN109522544A (zh) 基于卡方检验的句向量计算方法、文本分类方法及系统
CN110046634A (zh) 聚类结果的解释方法和装置
CN109299264A (zh) 文本分类方法、装置、计算机设备及存储介质
CN109800309A (zh) 课堂话语类型分类方法及装置
CN109902284A (zh) 基于论辩挖掘的一种无监督论点提取方法
CN104978569A (zh) 一种基于稀疏表示的增量人脸识别方法
CN112884569A (zh) 一种信用评估模型的训练方法、装置及设备
CN113870863B (zh) 声纹识别方法及装置、存储介质及电子设备
CN108009152A (zh) 一种基于Spark-Streaming的文本相似性分析的数据处理方法和装置
CN115905613A (zh) 音视频多任务学习、评估方法、计算机设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant