CN110728328B - 分类模型的训练方法和装置 - Google Patents

分类模型的训练方法和装置 Download PDF

Info

Publication number
CN110728328B
CN110728328B CN201911006979.2A CN201911006979A CN110728328B CN 110728328 B CN110728328 B CN 110728328B CN 201911006979 A CN201911006979 A CN 201911006979A CN 110728328 B CN110728328 B CN 110728328B
Authority
CN
China
Prior art keywords
classification
sample
training
classification task
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911006979.2A
Other languages
English (en)
Other versions
CN110728328A (zh
Inventor
刘凡
张格皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN201911006979.2A priority Critical patent/CN110728328B/zh
Publication of CN110728328A publication Critical patent/CN110728328A/zh
Application granted granted Critical
Publication of CN110728328B publication Critical patent/CN110728328B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种分类模型的训练方法和装置。方法包括:获取第一领域的第一样本集合,包括多个第一训练样本,每个第一训练样本包括样本输入和对应的第一分类任务的类别标签;获取第二领域的第二样本集合,包括多个第二训练样本,每个第二训练样本包括样本输入和对应的第二分类任务的类别标签;两个分类任务的类别标签具有映射关系;将第二样本集合中的多个第二训练样本加入第一样本集合,并根据映射关系,将第二训练样本包括的第二分类任务的类别标签转换为第一分类任务的类别标签,得到第三样本集合;将第三样本集合中的样本输入输入待训练的分类模型,以针对第一分类任务训练所述分类模型。能够获得令人满意的训练效果。

Description

分类模型的训练方法和装置
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及分类模型的训练方法和装置。
背景技术
对于机器学习,经常遇到缺乏训练样本的问题。例如,对于分类模型,通常需要大量的有类别标签的训练样本来进行训练。在实际应用中,通常采用人工标注类别标签的方式,来获取有类别标签的训练样本。由于标记高质量的训练样本需要大量有知识的标记者,因此获得足够数量的训练样本是极其困难、耗时和昂贵的。当训练样本的数量较少时,对分类模型的训练无法获得令人满意的训练效果。并且,从训练效果上来看,少量的训练样本和后期增加更多训练样本,对于分类模型的训练效果提升不大。
因此,希望能有改进的方案,能够提升分类模型的训练效果。
发明内容
本说明书一个或多个实施例描述了一种分类模型的训练方法和装置,能够提升分类模型的训练效果。
第一方面,提供了一种分类模型的训练方法,方法包括:
获取第一领域的第一样本集合,所述第一样本集合包括多个第一训练样本,每个所述第一训练样本包括样本输入和该样本输入对应的第一分类任务的类别标签;
获取第二领域的第二样本集合,所述第二样本集合包括多个第二训练样本,每个所述第二训练样本包括样本输入和该样本输入对应的第二分类任务的类别标签;所述第一分类任务的类别标签与所述第二分类任务的类别标签具有映射关系;
将所述第二样本集合中的多个所述第二训练样本加入所述第一样本集合,并根据所述映射关系,将所述第二训练样本包括的所述第二分类任务的类别标签转换为所述第一分类任务的类别标签,得到第三样本集合;
将所述第三样本集合中的样本输入输入待训练的分类模型,通过所述分类模型输出该样本输入对应的第一预测值,将所述第一预测值与该样本输入对应的所述第一分类任务的类别标签对比,以针对所述第一分类任务训练所述分类模型。
在一种可能的实施方式中,所述获取第一领域的第一样本集合,包括:
将所述第一领域的各第一备选训练样本按照第一预设比例划分为所述第一样本集合、第一验证集和第一测试集;所述第一验证集用于针对所述第一分类任务训练后的所述分类模型进行优化,所述第一测试集用于针对所述第一分类任务优化后的所述分类模型进行测试。
在一种可能的实施方式中,所述第一领域和所述第二领域的数据分布不同。
在一种可能的实施方式中,所述第一分类任务和所述第二分类任务均为二分类任务。
在一种可能的实施方式中,所述针对所述第一分类任务训练所述分类模型之后,所述方法还包括:
获取所述第一领域的待分类样本;
将所述第一领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第一分类任务,输出所述第一分类任务的预测类别。
在一种可能的实施方式中,所述针对所述第一分类任务训练所述分类模型之后,所述方法还包括:
将所述第一样本集合中的多个所述第一训练样本加入所述第二样本集合,并根据所述映射关系,将所述第一训练样本包括的所述第一分类任务的类别标签转换为所述第二分类任务的类别标签,得到第四样本集合;
将所述第四样本集合中的样本输入输入所述分类模型,通过所述分类模型输出该样本输入对应的第二预测值,将所述第二预测值与该样本输入对应的所述第二分类任务的类别标签对比,以针对所述第二分类任务训练所述分类模型。
进一步地,所述获取第二领域的第二样本集合,包括:
将所述第二领域的各第二备选训练样本按照第二预设比例划分为所述第二样本集合、第二验证集和第二测试集;所述第二验证集用于针对所述第二分类任务训练后的所述分类模型进行优化,所述第二测试集用于针对所述第二分类任务优化后的所述分类模型进行测试。
进一步地,所述针对所述第二分类任务训练所述分类模型之后,所述方法还包括:
获取所述第一领域的待分类样本;
将所述第一领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第一分类任务,输出所述第一分类任务的预测类别;或者,
获取所述第二领域的待分类样本;
将所述第二领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第二分类任务,输出所述第二分类任务的预测类别。
在一种可能的实施方式中,所述样本输入为文本数据;所述获取第一领域的第一样本集合,包括:
获取所述第一领域的原始文本数据;
将所述原始文本数据去除字母、数字、标点符号和表情符号中的至少一项后,得到所述第一样本集合中的样本输入。
在一种可能的实施方式中,所述第一领域为用户反馈;所述第一分类任务为确定用户反馈数据是否与隐私相关;所述第二领域为外部媒介;所述第二分类任务为确定外部媒介数据是否与隐私相关。
第二方面,提供了一种分类模型的训练装置,装置包括:
第一获取单元,用于获取第一领域的第一样本集合,所述第一样本集合包括多个第一训练样本,每个所述第一训练样本包括样本输入和该样本输入对应的第一分类任务的类别标签;
第二获取单元,用于获取第二领域的第二样本集合,所述第二样本集合包括多个第二训练样本,每个所述第二训练样本包括样本输入和该样本输入对应的第二分类任务的类别标签;所述第一分类任务的类别标签与所述第二分类任务的类别标签具有映射关系;
第一扩充单元,用于将所述第二获取单元获取的第二样本集合中的多个所述第二训练样本加入所述第一获取单元获取的第一样本集合,并根据所述映射关系,将所述第二训练样本包括的所述第二分类任务的类别标签转换为所述第一分类任务的类别标签,得到第三样本集合;
第一训练单元,用于将所述第一扩充单元得到的第三样本集合中的样本输入输入待训练的分类模型,通过所述分类模型输出该样本输入对应的第一预测值,将所述第一预测值与该样本输入对应的所述第一分类任务的类别标签对比,以针对所述第一分类任务训练所述分类模型。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,在针对第一分类任务训练分类模型时,不仅利用了第一分类任务对应的第一训练样本,还增加了第二分类任务对应的第二训练样本,由于第一训练样本和第二训练样本来自于不同的领域,因此相当于增强了第一分类任务对应样本空间的特征分布,从而使得训练后的分类模型获得更高的精确度和召回率,能够提升分类模型的训练效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的分类模型的训练方法流程图;
图3示出根据一个实施例的分类模型的训练装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及分类模型的训练,具体地,可以针对第一分类任务训练分类模型,和/或,针对第二分类任务训练分类模型。参照图1,以针对第一分类任务训练分类模型为例,根据第二分类任务增加第一分类任务的训练样本。其中,第一分类任务针对第一领域的数据进行分类,第二分类任务针对第二领域的数据进行分类,第一领域和第二领域的数据分布不同,第一分类任务和第二分类任务为互相关任务,第一分类任务的类别标签与第二分类任务的类别标签具有映射关系,本说明书实施例,根据该映射关系,将第二训练样本包括的第二分类任务的类别标签转换为第一分类任务的类别标签,以便将第二分类任务的任务数据用于针对第一分类任务训练分类模型。此外,还可以根据该映射关系,将第一训练样本包括的第一分类任务的类别标签转换为第二分类任务的类别标签,以便将第一分类任务的任务数据用于针对第二分类任务训练分类模型,使得训练后的分类模型既可以用于实现第一分类任务,也可以用于实现第二分类任务。
本说明书实施例,基于互相关的任务数据进行插入互补的方法,从而生成新的域数据,互相增强现有的训练数据特征上的分布结构进行机器学习,能够提升分类模型的训练效果。
图2示出根据一个实施例的分类模型的训练方法流程图,该方法可以基于图1所示的实施场景。如图2所示,该实施例中分类模型的训练方法包括以下步骤:步骤21,获取第一领域的第一样本集合,所述第一样本集合包括多个第一训练样本,每个所述第一训练样本包括样本输入和该样本输入对应的第一分类任务的类别标签;步骤22,获取第二领域的第二样本集合,所述第二样本集合包括多个第二训练样本,每个所述第二训练样本包括样本输入和该样本输入对应的第二分类任务的类别标签;所述第一分类任务的类别标签与所述第二分类任务的类别标签具有映射关系;步骤23,将所述第二样本集合中的多个所述第二训练样本加入所述第一样本集合,并根据所述映射关系,将所述第二训练样本包括的所述第二分类任务的类别标签转换为所述第一分类任务的类别标签,得到第三样本集合;步骤24,将所述第三样本集合中的样本输入输入待训练的分类模型,通过所述分类模型输出该样本输入对应的第一预测值,将所述第一预测值与该样本输入对应的所述第一分类任务的类别标签对比,以针对所述第一分类任务训练所述分类模型。下面描述以上各个步骤的具体执行方式。
首先在步骤21,获取第一领域的第一样本集合,所述第一样本集合包括多个第一训练样本,每个所述第一训练样本包括样本输入和该样本输入对应的第一分类任务的类别标签。可以理解的是,通常可以采用第一样本集合中的训练样本,针对第一分类任务训练分类模型。
在一个示例中,将所述第一领域的各第一备选训练样本按照第一预设比例划分为所述第一样本集合、第一验证集和第一测试集;所述第一验证集用于针对所述第一分类任务训练后的所述分类模型进行优化,所述第一测试集用于针对所述第一分类任务优化后的所述分类模型进行测试。其中,第一样本集合可以称为第一训练集,上述第一预设比例为预先设定的第一训练集、第一验证集和第一测试集各自包含训练样本数的比值,例如,第一预设比例为6:2:2,或7:1:1。
在一个示例中,所述样本输入为文本数据;先获取所述第一领域的原始文本数据;然后将所述原始文本数据去除字母、数字、标点符号和表情符号中的至少一项后,得到所述第一样本集合中的样本输入。可以理解的是,字母、数字、标点符号和表情符号为不具有实际意义的内容,对于分类没有帮助,具体可以根据第一分类任务来设定需要去除的内容。
接着在步骤22,获取第二领域的第二样本集合,所述第二样本集合包括多个第二训练样本,每个所述第二训练样本包括样本输入和该样本输入对应的第二分类任务的类别标签;所述第一分类任务的类别标签与所述第二分类任务的类别标签具有映射关系。可以理解的是,通常可以采用第二样本集合中的训练样本,针对第二分类任务训练分类模型。
在一个示例中,所述第一领域和所述第二领域的数据分布不同。甚至于数据分布差异极大。
在一个示例中,所述第一分类任务和所述第二分类任务均为二分类任务。
在一个示例中,所述第一领域为用户反馈;所述第一分类任务为确定用户反馈数据是否与隐私相关;例如,目标应用提供了用户反馈意见的平台,可以从该平台获取用户反馈数据,通过分析该用户反馈数据可以确定用户是否反馈的是自己的隐私被侵犯相关信息。所述第二领域为外部媒介;例如,目标应用之外的其他应用,上述其他应用可以为微博等网络平台,所述第二分类任务为确定外部媒介数据是否与隐私相关,上述外部媒介数据可以为用户分享的数据,通过分析该外部媒介数据可以确定用户是否分享的是自己的隐私被侵犯相关信息。该示例中,虽然第一领域和第二领域的数据分布差异极大,但是第一分类任务和第二分类任务的目标是一致的,可以通过第一分类任务的类别标签确定第二分类任务的类别标签,或者通过第二分类任务的类别标签确定第一分类任务的类别标签。
需要说明的是,上述映射关系不一定是一一对应的,可以包括一对一的映射关系,一对多的映射关系,或者多对一的映射关系。相应的,所述第一分类任务和所述第二分类任务的分类的类别数可以相同也可以不同。
然后在步骤23,将所述第二样本集合中的多个所述第二训练样本加入所述第一样本集合,并根据所述映射关系,将所述第二训练样本包括的所述第二分类任务的类别标签转换为所述第一分类任务的类别标签,得到第三样本集合。可以理解的是,该步骤将第二领域的训练样本用于扩充第一领域的训练样本,从而增强了训练数据的特征分布。
最后在步骤24,将所述第三样本集合中的样本输入输入待训练的分类模型,通过所述分类模型输出该样本输入对应的第一预测值,将所述第一预测值与该样本输入对应的所述第一分类任务的类别标签对比,以针对所述第一分类任务训练所述分类模型。可以理解的是,训练分类模型的过程就是调整分类模型的模型参数的过程,可以基于交叉熵损失函数等损失函数训练分类模型。
在一个示例中,所述针对所述第一分类任务训练所述分类模型之后,获取所述第一领域的待分类样本;将所述第一领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第一分类任务,输出所述第一分类任务的预测类别。
在另一个示例中,所述针对所述第一分类任务训练所述分类模型之后,将所述第一样本集合中的多个所述第一训练样本加入所述第二样本集合,并根据所述映射关系,将所述第一训练样本包括的所述第一分类任务的类别标签转换为所述第二分类任务的类别标签,得到第四样本集合;将所述第四样本集合中的样本输入输入所述分类模型,通过所述分类模型输出该样本输入对应的第二预测值,将所述第二预测值与该样本输入对应的所述第二分类任务的类别标签对比,以针对所述第二分类任务训练所述分类模型。
进一步地,将所述第二领域的各第二备选训练样本按照第二预设比例划分为所述第二样本集合、第二验证集和第二测试集;所述第二验证集用于针对所述第二分类任务训练后的所述分类模型进行优化,所述第二测试集用于针对所述第二分类任务优化后的所述分类模型进行测试。
进一步地,所述针对所述第二分类任务训练所述分类模型之后,获取所述第一领域的待分类样本;将所述第一领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第一分类任务,输出所述第一分类任务的预测类别;或者,获取所述第二领域的待分类样本;将所述第二领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第二分类任务,输出所述第二分类任务的预测类别。可以理解的是,同一分类模型既可以用于实现第一分类任务,也可以用于实现第二分类任务。
通过本说明书实施例提供的方法,在针对第一分类任务训练分类模型时,不仅利用了第一分类任务对应的第一训练样本,还增加了第二分类任务对应的第二训练样本,由于第一训练样本和第二训练样本来自于不同的领域,因此相当于增强了第一分类任务对应样本空间的特征分布,从而使得训练后的分类模型获得更高的精确度和召回率,能够提升分类模型的训练效果。
根据另一方面的实施例,还提供一种分类模型的训练装置,该装置用于执行本说明书实施例提供的分类模型的训练方法。图3示出根据一个实施例的分类模型的训练装置的示意性框图。如图3所示,该装置300包括:
第一获取单元31,用于获取第一领域的第一样本集合,所述第一样本集合包括多个第一训练样本,每个所述第一训练样本包括样本输入和该样本输入对应的第一分类任务的类别标签;
第二获取单元32,用于获取第二领域的第二样本集合,所述第二样本集合包括多个第二训练样本,每个所述第二训练样本包括样本输入和该样本输入对应的第二分类任务的类别标签;所述第一分类任务的类别标签与所述第二分类任务的类别标签具有映射关系;
第一扩充单元33,用于将所述第二获取单元32获取的第二样本集合中的多个所述第二训练样本加入所述第一获取单元31获取的第一样本集合,并根据所述映射关系,将所述第二训练样本包括的所述第二分类任务的类别标签转换为所述第一分类任务的类别标签,得到第三样本集合;
第一训练单元34,用于将所述第一扩充单元33得到的第三样本集合中的样本输入输入待训练的分类模型,通过所述分类模型输出该样本输入对应的第一预测值,将所述第一预测值与该样本输入对应的所述第一分类任务的类别标签对比,以针对所述第一分类任务训练所述分类模型。
可选地,作为一个实施例,所述第一获取单元31,具体用于将所述第一领域的各第一备选训练样本按照第一预设比例划分为所述第一样本集合、第一验证集和第一测试集;所述第一验证集用于针对所述第一分类任务训练后的所述分类模型进行优化,所述第一测试集用于针对所述第一分类任务优化后的所述分类模型进行测试。
可选地,作为一个实施例,所述第一领域和所述第二领域的数据分布不同。
可选地,作为一个实施例,所述第一分类任务和所述第二分类任务均为二分类任务。
可选地,作为一个实施例,所述装置还包括:
第三获取单元,用于在所述第一训练单元针对所述第一分类任务训练所述分类模型之后,获取所述第一领域的待分类样本;
第一分类单元,用于将所述第三获取单元获取的第一领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第一分类任务,输出所述第一分类任务的预测类别。
可选地,作为一个实施例,所述装置还包括:
第二扩充单元,用于在所述第一训练单元34针对所述第一分类任务训练所述分类模型之后,将所述第一样本集合中的多个所述第一训练样本加入所述第二样本集合,并根据所述映射关系,将所述第一训练样本包括的所述第一分类任务的类别标签转换为所述第二分类任务的类别标签,得到第四样本集合;
第二训练单元,用于将所述第二扩充单元得到的第四样本集合中的样本输入输入所述分类模型,通过所述分类模型输出该样本输入对应的第二预测值,将所述第二预测值与该样本输入对应的所述第二分类任务的类别标签对比,以针对所述第二分类任务训练所述分类模型。
进一步地,所述第二获取单元32,具体用于将所述第二领域的各第二备选训练样本按照第二预设比例划分为所述第二样本集合、第二验证集和第二测试集;所述第二验证集用于针对所述第二分类任务训练后的所述分类模型进行优化,所述第二测试集用于针对所述第二分类任务优化后的所述分类模型进行测试。
进一步地,所述装置还包括:
第四获取单元,用于在所述第二训练单元针对所述第二分类任务训练所述分类模型之后,获取所述第一领域的待分类样本;
第二分类单元,用于将所述第四获取单元获取的第一领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第一分类任务,输出所述第一分类任务的预测类别;或者,
第五获取单元,用于获取所述第二领域的待分类样本;
第三分类单元,用于将所述第五获取单元获取的第二领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第二分类任务,输出所述第二分类任务的预测类别。
可选地,作为一个实施例,所述样本输入为文本数据;所述第一获取单元31,具体用于:
获取所述第一领域的原始文本数据;
将所述原始文本数据去除字母、数字、标点符号和表情符号中的至少一项后,得到所述第一样本集合中的样本输入。
可选地,作为一个实施例,所述第一领域为用户反馈;所述第一分类任务为确定用户反馈数据是否与隐私相关;所述第二领域为外部媒介;所述第二分类任务为确定外部媒介数据是否与隐私相关。
通过本说明书实施例提供的装置,在针对第一分类任务训练分类模型时,不仅利用了第一分类任务对应的第一训练样本,还增加了第二分类任务对应的第二训练样本,由于第一训练样本和第二训练样本来自于不同的领域,因此相当于增强了第一分类任务对应样本空间的特征分布,从而使得训练后的分类模型获得更高的精确度和召回率,能够提升分类模型的训练效果。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (20)

1.一种分类模型的训练方法,所述方法包括:
获取第一领域的第一样本集合,所述第一样本集合包括多个第一训练样本,每个所述第一训练样本包括样本输入和该样本输入对应的第一分类任务的类别标签;
获取第二领域的第二样本集合,所述第二样本集合包括多个第二训练样本,每个所述第二训练样本包括样本输入和该样本输入对应的第二分类任务的类别标签;所述第一分类任务的类别标签与所述第二分类任务的类别标签具有映射关系;
将所述第二样本集合中的多个所述第二训练样本加入所述第一样本集合,并根据所述映射关系,将所述第二训练样本包括的所述第二分类任务的类别标签转换为所述第一分类任务的类别标签,得到第三样本集合;
将所述第三样本集合中的样本输入输入待训练的分类模型,通过所述分类模型输出该样本输入对应的第一预测值,将所述第一预测值与该样本输入对应的所述第一分类任务的类别标签对比,以针对所述第一分类任务训练所述分类模型;
其中,所述第一领域为用户反馈;所述第一分类任务为确定用户反馈数据是否与隐私相关;所述第二领域为外部媒介;所述第二分类任务为确定外部媒介数据是否与隐私相关。
2.如权利要求1所述的方法,其中,所述获取第一领域的第一样本集合,包括:
将所述第一领域的各第一备选训练样本按照第一预设比例划分为所述第一样本集合、第一验证集和第一测试集;所述第一验证集用于针对所述第一分类任务训练后的所述分类模型进行优化,所述第一测试集用于针对所述第一分类任务优化后的所述分类模型进行测试。
3.如权利要求1所述的方法,其中,所述第一领域和所述第二领域的数据分布不同。
4.如权利要求1所述的方法,其中,所述第一分类任务和所述第二分类任务均为二分类任务。
5.如权利要求1所述的方法,其中,所述针对所述第一分类任务训练所述分类模型之后,所述方法还包括:
获取所述第一领域的待分类样本;
将所述第一领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第一分类任务,输出所述第一分类任务的预测类别。
6.如权利要求1所述的方法,其中,所述针对所述第一分类任务训练所述分类模型之后,所述方法还包括:
将所述第一样本集合中的多个所述第一训练样本加入所述第二样本集合,并根据所述映射关系,将所述第一训练样本包括的所述第一分类任务的类别标签转换为所述第二分类任务的类别标签,得到第四样本集合;
将所述第四样本集合中的样本输入输入所述分类模型,通过所述分类模型输出该样本输入对应的第二预测值,将所述第二预测值与该样本输入对应的所述第二分类任务的类别标签对比,以针对所述第二分类任务训练所述分类模型。
7.如权利要求6所述的方法,其中,所述获取第二领域的第二样本集合,包括:
将所述第二领域的各第二备选训练样本按照第二预设比例划分为所述第二样本集合、第二验证集和第二测试集;所述第二验证集用于针对所述第二分类任务训练后的所述分类模型进行优化,所述第二测试集用于针对所述第二分类任务优化后的所述分类模型进行测试。
8.如权利要求6所述的方法,其中,所述针对所述第二分类任务训练所述分类模型之后,所述方法还包括:
获取所述第一领域的待分类样本;
将所述第一领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第一分类任务,输出所述第一分类任务的预测类别;或者,
获取所述第二领域的待分类样本;
将所述第二领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第二分类任务,输出所述第二分类任务的预测类别。
9.如权利要求1所述的方法,其中,所述样本输入为文本数据;所述获取第一领域的第一样本集合,包括:
获取所述第一领域的原始文本数据;
将所述原始文本数据去除字母、数字、标点符号和表情符号中的至少一项后,得到所述第一样本集合中的样本输入。
10.一种分类模型的训练装置,所述装置包括:
第一获取单元,用于获取第一领域的第一样本集合,所述第一样本集合包括多个第一训练样本,每个所述第一训练样本包括样本输入和该样本输入对应的第一分类任务的类别标签;
第二获取单元,用于获取第二领域的第二样本集合,所述第二样本集合包括多个第二训练样本,每个所述第二训练样本包括样本输入和该样本输入对应的第二分类任务的类别标签;所述第一分类任务的类别标签与所述第二分类任务的类别标签具有映射关系;
第一扩充单元,用于将所述第二获取单元获取的第二样本集合中的多个所述第二训练样本加入所述第一获取单元获取的第一样本集合,并根据所述映射关系,将所述第二训练样本包括的所述第二分类任务的类别标签转换为所述第一分类任务的类别标签,得到第三样本集合;
第一训练单元,用于将所述第一扩充单元得到的第三样本集合中的样本输入输入待训练的分类模型,通过所述分类模型输出该样本输入对应的第一预测值,将所述第一预测值与该样本输入对应的所述第一分类任务的类别标签对比,以针对所述第一分类任务训练所述分类模型;
其中,所述第一领域为用户反馈;所述第一分类任务为确定用户反馈数据是否与隐私相关;所述第二领域为外部媒介;所述第二分类任务为确定外部媒介数据是否与隐私相关。
11.如权利要求10所述的装置,其中,所述第一获取单元,具体用于将所述第一领域的各第一备选训练样本按照第一预设比例划分为所述第一样本集合、第一验证集和第一测试集;所述第一验证集用于针对所述第一分类任务训练后的所述分类模型进行优化,所述第一测试集用于针对所述第一分类任务优化后的所述分类模型进行测试。
12.如权利要求10所述的装置,其中,所述第一领域和所述第二领域的数据分布不同。
13.如权利要求10所述的装置,其中,所述第一分类任务和所述第二分类任务均为二分类任务。
14.如权利要求10所述的装置,其中,所述装置还包括:
第三获取单元,用于在所述第一训练单元针对所述第一分类任务训练所述分类模型之后,获取所述第一领域的待分类样本;
第一分类单元,用于将所述第三获取单元获取的第一领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第一分类任务,输出所述第一分类任务的预测类别。
15.如权利要求10所述的装置,其中,所述装置还包括:
第二扩充单元,用于在所述第一训练单元针对所述第一分类任务训练所述分类模型之后,将所述第一样本集合中的多个所述第一训练样本加入所述第二样本集合,并根据所述映射关系,将所述第一训练样本包括的所述第一分类任务的类别标签转换为所述第二分类任务的类别标签,得到第四样本集合;
第二训练单元,用于将所述第二扩充单元得到的第四样本集合中的样本输入输入所述分类模型,通过所述分类模型输出该样本输入对应的第二预测值,将所述第二预测值与该样本输入对应的所述第二分类任务的类别标签对比,以针对所述第二分类任务训练所述分类模型。
16.如权利要求15所述的装置,其中,所述第二获取单元,具体用于将所述第二领域的各第二备选训练样本按照第二预设比例划分为所述第二样本集合、第二验证集和第二测试集;所述第二验证集用于针对所述第二分类任务训练后的所述分类模型进行优化,所述第二测试集用于针对所述第二分类任务优化后的所述分类模型进行测试。
17.如权利要求15所述的装置,其中,所述装置还包括:
第四获取单元,用于在所述第二训练单元针对所述第二分类任务训练所述分类模型之后,获取所述第一领域的待分类样本;
第二分类单元,用于将所述第四获取单元获取的第一领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第一分类任务,输出所述第一分类任务的预测类别;或者,
第五获取单元,用于获取所述第二领域的待分类样本;
第三分类单元,用于将所述第五获取单元获取的第二领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第二分类任务,输出所述第二分类任务的预测类别。
18.如权利要求10所述的装置,其中,所述样本输入为文本数据;所述第一获取单元,具体用于:
获取所述第一领域的原始文本数据;
将所述原始文本数据去除字母、数字、标点符号和表情符号中的至少一项后,得到所述第一样本集合中的样本输入。
19.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-9中任一项的所述的方法。
20.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-9中任一项的所述的方法。
CN201911006979.2A 2019-10-22 2019-10-22 分类模型的训练方法和装置 Active CN110728328B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911006979.2A CN110728328B (zh) 2019-10-22 2019-10-22 分类模型的训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911006979.2A CN110728328B (zh) 2019-10-22 2019-10-22 分类模型的训练方法和装置

Publications (2)

Publication Number Publication Date
CN110728328A CN110728328A (zh) 2020-01-24
CN110728328B true CN110728328B (zh) 2022-03-01

Family

ID=69222800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911006979.2A Active CN110728328B (zh) 2019-10-22 2019-10-22 分类模型的训练方法和装置

Country Status (1)

Country Link
CN (1) CN110728328B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832613B (zh) * 2020-06-03 2022-03-15 北京百度网讯科技有限公司 模型训练方法、装置、电子设备和存储介质
CN111428008B (zh) * 2020-06-11 2020-09-29 北京百度网讯科技有限公司 用于训练模型的方法、装置、设备以及存储介质
CN111539490B (zh) * 2020-06-19 2020-10-16 支付宝(杭州)信息技术有限公司 一种业务模型训练方法和装置
CN112766320B (zh) * 2020-12-31 2023-12-22 平安科技(深圳)有限公司 一种分类模型训练方法及计算机设备
CN113850632B (zh) * 2021-11-29 2022-03-01 平安科技(深圳)有限公司 用户类别确定方法、装置、设备及存储介质
CN114510989B (zh) * 2021-12-23 2022-10-25 中国科学院软件研究所 图像数据集的规范性评估方法、装置及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5594809A (en) * 1995-04-28 1997-01-14 Xerox Corporation Automatic training of character templates using a text line image, a text line transcription and a line image source model
CN104850531A (zh) * 2014-02-19 2015-08-19 日本电气株式会社 一种建立数学模型的方法和装置
CN106874279A (zh) * 2015-12-11 2017-06-20 腾讯科技(深圳)有限公司 生成应用类别标签的方法及装置
CN107862322A (zh) * 2017-09-15 2018-03-30 广州唯品会研究院有限公司 结合图片和文本进行图片属性分类的方法、装置及系统
CN108152239A (zh) * 2017-12-13 2018-06-12 东北大学秦皇岛分校 基于特征迁移的样品成分含量测定方法
CN109598292A (zh) * 2018-11-23 2019-04-09 华南理工大学 一种不同辅助样本正负比例的迁移学习方法
CN109766277A (zh) * 2019-01-02 2019-05-17 北京航空航天大学 一种基于迁移学习与dnn的软件故障诊断方法
CN109871444A (zh) * 2019-01-16 2019-06-11 北京邮电大学 一种文本分类方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11062228B2 (en) * 2015-07-06 2021-07-13 Microsoft Technoiogy Licensing, LLC Transfer learning techniques for disparate label sets
CN105425583B (zh) * 2015-11-05 2017-12-12 浙江大学 基于协同训练lwpls的青霉素生产过程的控制方法
US10296846B2 (en) * 2015-11-24 2019-05-21 Xerox Corporation Adapted domain specific class means classifier
CN109242038A (zh) * 2018-09-25 2019-01-18 安徽果力智能科技有限公司 一种用于标签不足情况的机器人地形分类器训练方法
CN109754785B (zh) * 2019-02-15 2021-11-30 临沂大学 一种智能学习轮椅及其语音学习方法
CN110322446B (zh) * 2019-07-01 2021-02-19 华中科技大学 一种基于相似性空间对齐的域自适应语义分割方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5594809A (en) * 1995-04-28 1997-01-14 Xerox Corporation Automatic training of character templates using a text line image, a text line transcription and a line image source model
CN104850531A (zh) * 2014-02-19 2015-08-19 日本电气株式会社 一种建立数学模型的方法和装置
CN106874279A (zh) * 2015-12-11 2017-06-20 腾讯科技(深圳)有限公司 生成应用类别标签的方法及装置
CN107862322A (zh) * 2017-09-15 2018-03-30 广州唯品会研究院有限公司 结合图片和文本进行图片属性分类的方法、装置及系统
CN108152239A (zh) * 2017-12-13 2018-06-12 东北大学秦皇岛分校 基于特征迁移的样品成分含量测定方法
CN109598292A (zh) * 2018-11-23 2019-04-09 华南理工大学 一种不同辅助样本正负比例的迁移学习方法
CN109766277A (zh) * 2019-01-02 2019-05-17 北京航空航天大学 一种基于迁移学习与dnn的软件故障诊断方法
CN109871444A (zh) * 2019-01-16 2019-06-11 北京邮电大学 一种文本分类方法及系统

Also Published As

Publication number Publication date
CN110728328A (zh) 2020-01-24

Similar Documents

Publication Publication Date Title
CN110728328B (zh) 分类模型的训练方法和装置
US8799869B2 (en) System for ensuring comprehensiveness of requirements testing of software applications
CN109934227A (zh) 图像文字识别系统和方法
WO2014169288A1 (en) Evaluation control
CN109522228B (zh) 接口自动化测试数据构造方法、装置、平台及存储介质
US20150178134A1 (en) Hybrid Crowdsourcing Platform
AU2013251195A1 (en) Program, apparatus, and method for information processing
CN112966081B (zh) 处理问答信息的方法、装置、设备和存储介质
TWI590095B (zh) 軟體功能驗證系統及其驗證方法
CN113268403B (zh) 时间序列的分析预测方法、装置、设备及存储介质
CN110807002A (zh) 一种基于工作流的报表生成方法、系统及设备和存储介质
CN110046155B (zh) 特征数据库的更新、数据特征的确定方法、装置及设备
US11675756B2 (en) Data complementing system and data complementing method
CN110909868A (zh) 基于图神经网络模型的节点表示方法和装置
JP2019040417A (ja) 情報処理装置及びプログラム
US20200293570A1 (en) Information processing method, information processing apparatus, and non-transitory computer-readable storage medium for storing information processing program
CN110209780B (zh) 一种问题模板生成方法、装置、服务器及存储介质
US20210182458A1 (en) Method, device and computer program product for data simulation
CN113419719A (zh) 一种基于业务场景的接口用例生成方法及系统
US10152407B1 (en) Optimization of analysis of automated test results
Cafeo et al. Feature dependencies as change propagators: an exploratory study of software product lines
CN116401372A (zh) 知识图谱表示学习方法、装置、电子设备及可读存储介质
CN110414845B (zh) 针对目标交易的风险评估方法及装置
US9275358B1 (en) System, method, and computer program for automatically creating and submitting defect information associated with defects identified during a software development lifecycle to a defect tracking system
US10719242B2 (en) Report preparation program and report preparation method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant