CN113378895A

CN113378895A - 一种分类模型生成方法、装置、存储介质及电子设备

Info

Publication number: CN113378895A
Application number: CN202110565900.0A
Authority: CN
Inventors: 刘曙铭
Original assignee: Chengdu Oppo Communication Technology Co ltd
Current assignee: Chengdu Oppo Communication Technology Co ltd
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2021-09-10
Anticipated expiration: 2041-05-24
Also published as: CN113378895B

Abstract

本申请公开了一种分类模型生成方法、装置、存储介质及电子设备，其中，方法包括：获取针对各训练数据源进行人工标注所得到的标签，将所述各训练数据源和所述各训练数据源对应的所述标签保存在训练数据集合中，基于所述各训练数据源的属性信息对所述各训练数据源进行拓展处理，获得伪标签数据集合，基于所述伪标签数据集合生成数据源分类模型。采用本申请，通过对人工标注标签的数据源进行拓展处理后得到数据源分类模型，减少人工标注的工作量，从而减少分类模型生成所需的成本和时间。

Description

一种分类模型生成方法、装置、存储介质及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种分类模型生成方法、装置、存储介质及电子设备。

背景技术

通过分类模型对数据源标注标签、进行分类可以帮助人们对大数据进行整理归纳，例如互联网公司可以通过分类模型对用户的浏览记录对应的数据源标注标签，从而获取用户上网时所感兴趣的内容，便于向用户推荐用户感兴趣的内容来提高使用效果。现有的分类模型生成方法主要是对数据源采用人工标注来标注标签，再通过标注标签的数据源生成分类模型，耗费很多人力物力，分类模型生成的成本高、时间长。

发明内容

本申请实施例提供了一种分类模型生成方法、装置、存储介质及电子设备，可以通过对人工标注标签的数据源进行拓展处理后得到数据源分类模型，减少人工标注的工作量，从而减少分类模型生成所需的成本和时间。所述技术方案如下：

第一方面，本申请实施例提供了一种分类模型生成方法，所述方法包括：

获取针对各训练数据源进行人工标注所得到的标签，将所述各训练数据源和所述各训练数据源对应的所述标签保存在训练数据集合中；

基于所述各训练数据源的属性信息对所述各训练数据源进行拓展处理，获得伪标签数据集合；

基于所述伪标签数据集合生成数据源分类模型。

第二方面，本申请实施例提供了一种分类模型生成装置，所述装置包括：

人工标注模块，用于获取针对各训练数据源进行人工标注所得到的标签，将所述各训练数据源和所述各训练数据源对应的所述标签保存在训练数据集合中；

拓展处理模块，用于基于所述各训练数据源的属性信息对所述各训练数据源进行拓展处理，获得伪标签数据集合；

模型生成模块，用于基于所述伪标签数据集合生成数据源分类模型。

第三方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种电子设备，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

在本申请一个或多个实施例中，获取针对各训练数据源进行人工标注所得到的标签，将各训练数据源和各训练数据源对应的标签保存在训练数据集合中，基于各训练数据源的属性信息对各训练数据源进行拓展处理，获得伪标签数据集合，基于伪标签数据集合生成数据源分类模型。通过对人工标注标签的数据源进行拓展处理后得到数据源分类模型，减少了人工标注的工作量，从而减少了分类模型生成所需的成本和时间。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据源分了模型生成的举例示意图；

图2是本申请实施例提供的一种分类模型生成方法的流程示意图；

图3是本申请实施例提供的一种分类模型生成方法的流程示意图；

图3a为本身实施例提供了一种分类模型生成的举例示意图；

图4是本申请实施例提供的一种分类模型生成装置的结构示意图；

图5是本申请实施例提供的一种分类模型生成装置的结构示意图；

图6是本申请实施例提供的一种拓展处理模块的结构示意图；

图7是本申请实施例提供的一种电子设备的结构示意图；

图8是本申请实施例提供的操作系统和用户空间的结构示意图；

图9是图7中安卓操作系统的架构图；

图10是图7中IOS操作系统的架构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本申请的描述中，需要说明的是，除非另有明确的规定和限定，“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例提供的分类模型生成方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的分类模型生成装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。本申请实施例中的分类模型生成装置可以为手机、个人电脑、平板电脑、手持设备、车载设备、可穿戴设备等终端设备。本申请实施例中的分类模型，包括数据源分类模型、第一分类模型、第二分类模型等，可以用于对数据源标注标签，达到分类的目的，本申请实施例中的数据源可以为图片、文本数据、网络地址或用户搜索时所使用的词条等，例如当数据源为图片时，分类模型生成装置生成的数据源分类模型就可以对图片标注标签、进行分类。

请一并参见图1，为本申请实施例提供了一种数据源分类模型生成的举例示意图，先采用人工标注的方式对训练数据域标注标签并发送给分类模型生成装置，生成训练数据集合，分类模型生成装置对训练数据集合进行拓展处理，例如获取与训练数据集合中训练数据源的属性信息相同或相似的其他数据源并自动标注标签，获得伪标签数据集合，伪标签数据集合中的数据源相比训练数据集合中的数据源更多，分类模型生成装置根据伪标签数据集合中的数据源和伪标签数据集合中的数据源对应的标签生成数据源分类模型，该数据源分类模型可以对数据源标注标签，达到分类的目的。

下面结合具体的实施例对本申请提供的分类模型生成方法进行详细说明。

请参见图2，为本申请实施例提供了一种分类模型生成方法的流程示意图。如图2所示，本申请实施例的所述方法可以包括以下步骤S101-S103。

S101，获取针对各训练数据源进行人工标注所得到的标签，将所述各训练数据源和所述各训练数据源对应的所述标签保存在训练数据集合中。

具体的，分类模型生成装置需要根据标注了标签的数据源才能生成数据源分类模型，需要先采用人工标注的方式对训练数据源标注标签，然后将标注了标签的训练数据源发送给分类模型生成装置，分类模型生成装置获取各训练数据源和各训练数据源对应的标签，生成各训练数据源对应的各训练数据，所述训练数据即为带标签的训练数据源，也包含训练数据源、训练数据源对应的标签和训练数据源与标签之间的关联关系，分类模型生成装置将各训练数据保存在训练数据集合中。所述训练数据源可以为分类模型生成装置通过随机采样获取的数据源。

S102，基于所述各训练数据源的属性信息对所述各训练数据源进行拓展处理，获得伪标签数据集合。

具体的，数据源可以为图片、文本数据、网络地址或用户搜索时所使用的词条等，所以各训练数据源都有各自的属性信息，例如当训练数据源为图片时，训练数据源的属性信息可以为图片的大小、像素或颜色的分布等，当训练数据源为文本数据时，训练数据源的属性信息可以为文本数据的字节长度、文本内容等。分类模型生成模块可以获取训练数据源的属性信息，并根据属性信息获取与训练数据源有着相同或相似属性信息的数据源，并对拥有相同或相似属性信息的数据源标注上与训练数据源相同的标签，实现对各训练数据源的拓展处理，获得了更多的相同标签的数据源，生成伪标签数据。可以理解的是所述伪标签数据即为带标签的数据源，也包含数据源、数据源对应的标签和数据源与标签之间的关联关系，分类模型生成装置将伪标签数据保存在伪标签数据集合中。

S103，基于所述伪标签数据集合生成数据源分类模型。

具体的，分类模型生成装置根据伪标签数据集合中的数据源和数据源对应的标签生成数据源分类模型，该数据源分类模型可以对数据源标注标签，达到分类的目的。

在本申请实施例中，获取针对各训练数据源进行人工标注所得到的标签，将各训练数据源和各训练数据源对应的标签保存在训练数据集合中，基于各训练数据源的属性信息对各训练数据源进行拓展处理，获得伪标签数据集合，基于伪标签数据集合生成数据源分类模型。通过对人工标注标签的数据源进行拓展处理后得到数据源分类模型，减少了人工标注的工作量，从而减少了分类模型生成所需的成本和时间。

请参见图3，为本申请实施例提供了一种分类模型生成方法的流程示意图。如图3所示，本申请实施例的所述方法可以包括以下步骤S201-S208。

S201，通过随机采样获取第一数据源集合，基于预测模型生成所述第一数据源集合中的所有数据源对应的预测分值。

具体的，分类模型生成装置可以通过随机采样的方式从互联网或相关工作人员预先设置的数据库中获取第一数据源集合，并根据预测模型对第一数据源中的所有数据源进行评分并生成所有数据源对应的预测分值。所述预测模型为相关工作人员预先设置好的模型，用于对数据源进行评分，从而根据得到的预测分值对数据源进行分类，例如若需要将数据源分为A、B两类，则可以使用预测模型针对所有数据源生成数值为0～1的预测分值，预测分值为1则数据源被分为A类，预测分值为0则被分为B类。可以是相关工作人员先通过对少量数据源进行人工标注后生成预测数据集合，然后分类模型生成装置基于预测数据集合生成预测模型。

S202，获取所述第一数据源集合中所述预测分值为预设分值的候选数据源，将所述候选数据源按照预设比例拆分为训练数据源和测试数据源。

具体的，可以理解的是，分类模型生成装置可以根据预测模型生成的预测分值对数据源进行分类，例如预测分值为0则为A类，预测分值为1则为B类，由此可见预测分值越靠近0的数据源更可能是A类，预测分值越靠近1的数据源更可能的B类，而预测分值为0.5这样的处于0和1中间的数据源，表示预测模型并不能区分该数据源A类还是B类，分类模型生成装置可以将这样预测模型不能区分的数据源确认为候选数据源，即预测分值为预设分值的候选数据源，然后提醒相关工作人员采用人工标注的方式对候选数据源标注标签。所述预设分值可以是分类模型生成装置的初始设置，也可以由相关工作人员根据预测模型的类型在分类模型生成装置上进行设置，例如预测模型需要将数据源分为两类时，预设分值可以为0.5。采用如上所述的方法可以将第一数据源模型中不利于分辨的候选数据源挑选出来交给人工标注，减少了需要人工标注的数据源的数量，并且提升了需要人工标注的数据源的难辩识程度，从而使得人工标注的效率提高，因为若人工标注的数据源大多都易于辨别，会降低人工标注的效率、增加人工标注所需的时间。

分类模型生成装置可以将候选数据源按照预设比例拆分为训练数据源和测试数据源，经由人工标注后的训练数据源可以用于分类模型生成装置生成分类模型，而经由人工标注后的测试数据源可以用于测试分类模型的准确率。所述预设比例可以是分类模型生成装置的初始设置，也可以由相关工作人员在分类模型生成装置上进行设置。

可选的，分类模型生成装置除了可以获取第一数据源集合中预测模型难以区分的数据源，还可以获取预测模型生成的预测分值出现错误的数据源。分类模型生成装置可以将生成预测模型所使用的少量数据源也保存在第一数据源集合中，这些少量数据源是已经由人工标注过标签、进行分类了的，若预测模型对少量数据源的分类与人工标注的不相同，可以将分类错误的少量数据源确认为候选数据源。

S203，获取针对各测试数据源进行人工标注所得到的标签，将所述各测试数据源和所述各测试数据源对应的所述标签保存在测试数据集合中，获取针对各训练数据源进行人工标注所得到的标签，将所述各训练数据源和所述各训练数据源对应的所述标签保存在训练数据集合中。

具体的，分类模型生成装置获取针对各训练数据源进行人工标注后所得到的标签，生成各训练数据源对应的各训练数据，所述训练数据即为带标签的训练数据源，也包含训练数据源、训练数据源对应的标签和训练数据源与标签之间的关联关系，分类模型生成装置将各训练数据保存在训练数据集合中。同样的，分类模型生成装置获取针对各测试数据源进行人工标注后所得到的标签，生成各测试数据源对应的各测试数据，所述测试数据即为带标签的测试数据源，也包含测试数据源、测试数据源对应的标签和测试数据源与标签之间的关联关系，分类模型生成装置将各测试数据源保存在测试数据集合中。可以理解的是，人工标注时对训练数据源和测试数据源所标注的标签种类、个数相同。

S204，基于所述训练数据集合生成初始分类模型，获取通过随机采样获取第二数据源集合，基于所述初始分类模型对所述第二数据源集合中的所有数据源标注对应的所述标签，将所述第二数据源集合中的所有数据源与所述标签保存在伪标签数据集合中。

具体的，分类模型生成装置基于训练数据集合生成初始分类模型，所述初始分类模型可以对数据源标注标签，达到分类目的。然后分类模型生成装置通过随机采样的方式从互联网或相关工作人员预先设置的数据库中获取第二数据源集合，并采用初始分类模型对第二数据源集合中的所有数据源标注对应的标签，生成伪标签数据，所述伪标签数据即为带标签的数据源，也包含数据源、数据源对应的标签和数据源与标签之间的关联关系，分类模型生成装置将伪标签数据保存在伪标签数据集合中。数据源可以为图片、文本数据、网络地址或用户搜索时所使用的词条等，所以各训练数据源都有各自的属性信息，例如当训练数据源为图片时，训练数据源的属性信息可以为图片的大小、像素或颜色的分布等，当训练数据源为文本数据时，训练数据源的属性信息可以为文本数据的字节长度、文本内容等，采用初始分类模型可以从第二数据源集合中获取与训练数据源的属性信息相同或相似的数据源并对这些数据源标注标签，达到对训练数据源进行拓展处理的目的。

可选的，当数据源为文本数据、用户搜索时所使用的词条等文字信息时，数据源的属性信息可以为文本内容、文本长度等，分类模型生成装置可以获取与数据源中的文本内容的语义相似的其他数据源：分类模型生成装置可以获取训练数据集合中的目标数据源与目标数据源对应的目标标签，获取与目标数据源的语义相似度大于相似阈值的相似数据源，对相似数据源标注目标标签，将相似数据源与目标标签保存在伪标签数据集合中。所述语义相似度可以通过提取目标数据源中的关键词、句式结构等来计算，例如目标数据源为“我爱吃苹果”，那么“我喜欢吃苹果”、“我很爱吃苹果”等就是该目标数据源的相似数据源。同样的，也可以采用simbert模型来获取目标数据源的相似数据源，所述sinbert模型同时具备相似问生成和相似句检索能力。

可选的，当数据源为文本数据源、用户搜索时所使用的词条等文字信息时，分类模型生成装置还可以获取训练数据集合中的目标数据源与述目标数据源对应的目标标签，对目标数据源进行回译处理，获得目标数据源对应的同义数据源，对同义数据源标注所述目标标签，将同义数据源与目标标签保存在伪标签数据集合中。所述回译处理就是将数据源由A语种翻译为B语种，再将B语种的数据源翻译回A语种，达到文本数据增强，生成同义句的目的。例如当目标数据源为“我喜欢看书”，然后分类模型生成装置可以利用市面上的翻译软件将目标数据源翻译为英文“I like reading books”，再将英文翻译回中文“我喜欢读书”，则“我喜欢读书”就是目标数据源的同义数据源。可以理解的是，将中文翻译为英文，再将英文翻译为中文是一阶回译，即在回译处理中除了目标数据源原本的语种外，只使用了一种语种，分类模型生成装置还可以对目标数据源采用二阶回译、三阶回译等，即采用更多的语种对目标数据源进行翻译，例如将中文翻译为英文，再将英文翻译为日文，最后将日文翻译回中文，就能等到经过二阶回译的回译处理结果。

S205，基于所述训练数据集合生成第一分类模型，在所述伪标签数据集合中获取目标数量的伪标签数据，基于所述目标数量的伪标签数据和所述训练数据集合生成第二分类模型，基于所述第一分类模型对所述各测试数据源标注标签，获得第一测试集合，基于所述第二分类模型对所述各测试数据源标注标签，获得第二测试集合。

具体的，由于伪标签数据集合中的伪标签数据都是有分类模型生成装置自动生成的而非根据人工标注生成的，其中会存在部分标注并不准确的数据源，所以需要对伪标签数据集合中的伪标签数据进行检验。分类模型生成装置基于训练数据集合生成第一分类模型，并在伪标签数据集合中获取目标数量的伪标签数据，所述目标数量可以为分类模型生成装置的初始设置，也可以由相关工作人员在分类模型生成装置上进行设置，然后分类模型生成装置基于目标数量的伪标签数据和训练数据集合生成第二分类模型。分类模型生成装置采用第一分类模型对各测试数据源标注标签，获得第一测试集合，然后采用第二分类模型对各测试数据源标注标签，获得第二测试集合。

S206，对所述测试数据集合和所述第一测试集合进行比对处理获得第一分类模型的准确率，对所述测试数据集合和所述第二测试集合进行比对处理获得第二分类模型的准确率。

具体的，分类模型生成装置将测试数据集合和第一测试集合进行比对处理，即比较将测试数据集合和第一测试集合中相同数据源对应的标签是否相同，计算标签相同的数据源个数占测试数据集合中数据源的总个数的百分比，这个百分比就是第一分类模型的准确率，并采用同样的方法获得第二测试集合的准确率。

S207，若所述第一分类模型的准确率大于所述第二分类模型的准确率，对所述目标数量的伪标签数据中的标签进行更改处理。

具体的，若第一分类模型的准确率大于第二分类模型的准确率，代表所述目标数量的伪标签数据中的数据源的标签标注有误，分类模型生成装置可以将目标数据的伪标签数据中的标签进行更改，再将经过更改处理后的伪标签数据与伪标签数据集合中原本的伪标签数据进行替换，更改处理后的伪标签数据还可以再次被选为目标数量的伪标签数据并用于生成第一分类模型。

可选的，分类模型生成装置每次选择目标数量的伪标签数据，并将这目标数量的伪标签数据从伪标签数据集中删除，若第一分类模型的准确率小于或等于第二分类模型的准确率则将这目标数量的伪标签数据保存在临时集合中，若第一分类模型的准确率大于第二分类模型的准确率则将这目标数量的伪标签数据重新保存在伪标签数据集合中，等待分类模型生成装置的下一次选择，直到伪标签数据集合中没有数据了，则表示所有的伪标签数据都通过了检测，分类模型生成装置可以将临时集合中的伪标签数据移动到伪标签数据集合中。

请一并参见图3a，为本申请实施例提供了一种分类模型生成的举例示意图，若分类模型生成装置获得了1000个候选数据源，并采用预设比例8:2获得到了800个训练数据源和200个测试数据源，则通过人工标注可以获得训练数据集合和测试数据集合，分类模型生成装置通过对训练数据集合进行拓展处理，例如采用初始分类模型对第二数据源集合标注标签、采用回译处理获取同义数据源等，获取到有5000个训练数据的训练数据集合。若目标数量为1000，则基于训练数据集合中的800个训练数据和训练数据集合中的任意选择的1000个训练数据生成第二分类模型，然后根据训练数据集合中的800个训练数据生成第一分类模型，采用第一分类模型和第二分类模型分别对测试数据集合中的200个测试数据标注标签并获取准确率。若第一分类模型的准确率小于或等于第二分类模型的准确率，则表示这1000个训练数据的标签标注准确不需要更改，若第一分类模型的准确率大于第二分类模型的准确率，则表示这1000个训练数据的表现标注不准确，需要进行更改处理。

S208，基于所述伪标签数据集合生成数据源分类模型，获取待分类数据源集合，采用所述数据源分类模型并基于所述标签，对所述待分类数据源集合中的各数据源进行标注处理。

具体的，分类模型生成装置基于伪标签数据集生成数据源分类模型，数据源分类模型可以对数据源标注标签，达到分类的目的。分类模型生成装置可以从互联网或数据库中获取待分类数据源集合，待分类数据源集合中是未标注标签的数据源，分类模型生成装置可以采用数据源分类模型将对待分类数据源集合中的各数据源进行标注处理，为各数据源标注上标签。

在本申请实施例中，通过预测模型获取第一数据源集合中数据源的预测分值，并通过预设分值选取出候选数据源，减少了需要人工标注的数据源的数量，并且提升了需要人工标注的数据源的难辩识程度，从而使得人工标注的效率提高，获取针对各训练数据源进行人工标注所得到的标签，将各训练数据源和各训练数据源对应的标签保存在训练数据集合中，采用初始分类模型对第二数据源集合进行标注，根据语义相似度或回译处理获取与训练数据源语义相同或相似的数据源，达到各训练数据源进行拓展处理的目的，获得伪标签数据集合，并对伪标签数据集合中的伪标签数据进行测试检验，对伪标签数据的标签精细更改，基于伪标签数据集合生成数据源分类模型。通过对人工标注标签的数据源进行拓展处理后得到数据源分类模型，减少了人工标注的工作量，从而减少了分类模型生成所需的成本和时间。

下面将结合附图4-附图6，对本申请实施例提供的分类模型生成装置进行详细介绍。需要说明的是，附图4-附图6中的分类模型生成装置，用于执行本申请图2和图3所示实施例的方法，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请图2和图3所示的实施例。

请参见图4，其示出了本申请一个示例性实施例提供的分类模型生成装置的结构示意图。该分类模型生成装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该装置1包括人工标注模块11、拓展处理模块12和模型生成模块13。

人工标注模块11，用于获取针对各训练数据源进行人工标注所得到的标签，将所述各训练数据源和所述各训练数据源对应的所述标签保存在训练数据集合中；

拓展处理模块12，用于基于所述各训练数据源的属性信息对所述各训练数据源进行拓展处理，获得伪标签数据集合；

模型生成模块13，用于基于所述伪标签数据集合生成数据源分类模型。

在本实施例中，在本申请实施例中，获取针对各训练数据源进行人工标注所得到的标签，将各训练数据源和各训练数据源对应的标签保存在训练数据集合中，基于各训练数据源的属性信息对各训练数据源进行拓展处理，获得伪标签数据集合，基于伪标签数据集合生成数据源分类模型。通过对人工标注标签的数据源进行拓展处理后得到数据源分类模型，减少了人工标注的工作量，从而减少了分类模型生成所需的成本和时间。

请参见图5，其示出了本申请一个示例性实施例提供的分类模型生成装置的结构示意图。该分类模型生成装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该装置1包括人工标注模块11、拓展处理模块12、模型生成模块13、候选数据获取模块14、更改处理模块15、准确率获取模块16和标注处理模块17。

具体的，请一并参见图6，为本申请实施例提供了一种拓展处理模块的结构示意图。所图6所示，所述拓展处理模块12可以包括：

第一拓展单元121，用于基于所述训练数据集合生成初始分类模型；

获取通过随机采样获取第二数据源集合，基于所述初始分类模型对所述第二数据源集合中的所有数据源标注对应的所述标签，将所述第二数据源集合中的所有数据源与所述标签保存在伪标签数据集合中；

第二拓展单元122，用于获取所述训练数据集合中的目标数据源与所述目标数据源对应的目标标签；

获取与所述目标数据源的语义相似度大于相似阈值的相似数据源；

对所述相似数据源标注所述目标标签，将所述相似数据源与所述目标标签保存在伪标签数据集合中；

第三拓展单元123，用于获取所述训练数据集合中的目标数据源与所述目标数据源对应的目标标签；

对所述目标数据源进行回译处理，获得所述目标数据源对应的同义数据源；

对所述同义数据源标注所述目标标签，将所述同义数据源与所述目标标签保存在伪标签数据集合中。

模型生成模块13，用于基于所述伪标签数据集合生成数据源分类模型；

候选数据获取模块14，用于通过随机采样获取第一数据源集合；

基于预测模型生成所述第一数据源集合中的所有数据源对应的预测分值；

获取所述第一数据源集合中所述预测分值为预设分值的候选数据源，将所述候选数据源按照预设比例拆分为训练数据源和测试数据源；

获取针对各测试数据源进行人工标注所得到的标签，将所述各测试数据源和所述各测试数据源对应的所述标签保存在测试数据集合中；

更改处理模块15，用于基于所述训练数据集合生成第一分类模型；

在所述伪标签数据集合中获取目标数量的伪标签数据，基于所述目标数量的伪标签数据和所述训练数据集合生成第二分类模型；

若所述第一分类模型的准确率大于所述第二分类模型的准确率，对所述目标数量的伪标签数据中的标签进行更改处理；

准确率获取模块16，用于基于所述第一分类模型对所述各测试数据源标注标签，获得第一测试集合；

基于所述第二分类模型对所述各测试数据源标注标签，获得第二测试集合；

对所述测试数据集合和所述第一测试集合进行比对处理获得第一分类模型的准确率，对所述测试数据集合和所述第二测试集合进行比对处理获得第二分类模型的准确率；

标注处理模块17，用于获取待分类数据源集合，采用所述数据源分类模型并基于所述标签，对所述待分类数据源集合中的各数据源进行标注处理。

在本实施例中，通过预测模型获取第一数据源集合中数据源的预测分值，并通过预设分值选取出候选数据源，减少了需要人工标注的数据源的数量，并且提升了需要人工标注的数据源的难辩识程度，从而使得人工标注的效率提高，获取针对各训练数据源进行人工标注所得到的标签，将各训练数据源和各训练数据源对应的标签保存在训练数据集合中，采用初始分类模型对第二数据源集合进行标注，根据语义相似度或回译处理获取与训练数据源语义相同或相似的数据源，达到各训练数据源进行拓展处理的目的，获得伪标签数据集合，并对伪标签数据集合中的伪标签数据进行测试检验，对伪标签数据的标签精细更改，基于伪标签数据集合生成数据源分类模型。通过对人工标注标签的数据源进行拓展处理后得到数据源分类模型，减少了人工标注的工作量，从而减少了分类模型生成所需的成本和时间。

需要说明的是，上述实施例提供的分类模型生成装置在执行分类模型生成方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的分类模型生成装置与分类模型生成方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图2-图3所示实施例的所述分类模型生成方法，具体执行过程可以参见图2-图3所示实施例的具体说明，在此不进行赘述。

本申请还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行如上述图2-图3所示实施例的所述分类模型生成法，具体执行过程可以参见图2-图3所示实施例的具体说明，在此不进行赘述。

请参考图7，其示出了本申请一个示例性实施例提供的电子设备的结构方框图。本申请中的电子设备可以包括一个或多个如下部件：处理器110、存储器120、输入装置130、输出装置140和总线150。处理器110、存储器120、输入装置130和输出装置140之间可以通过总线150连接。

处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个电子设备内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(digital signal processing，DSP)、现场可编程门阵列(field－programmable gate array，FPGA)、可编程逻辑阵列(programmable logicArray，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(centralprocessing unit，CPU)、图像处理器(graphics processing unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(random Access Memory，RAM)，也可以包括只读存储器(read-only memory，ROM)。可选地，该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等，该操作系统可以是安卓(Android)系统，包括基于Android系统深度开发的系统、苹果公司开发的IOS系统，包括基于IOS系统深度开发的系统或其它系统。存储数据区还可以存储电子设备在使用中所创建的数据比如电话本、音视频数据、聊天记录数据，等。

参见图8所示，存储器120可分为操作系统空间和用户空间，操作系统即运行于操作系统空间，原生及第三方应用程序即运行于用户空间。为了保证不同第三方应用程序均能够达到较好的运行效果，操作系统针对不同第三方应用程序为其分配相应的系统资源。然而，同一第三方应用程序中不同应用场景对系统资源的需求也存在差异，比如，在本地资源加载场景下，第三方应用程序对磁盘读取速度的要求较高；在动画渲染场景下，第三方应用程序则对GPU性能的要求较高。而操作系统与第三方应用程序之间相互独立，操作系统往往不能及时感知第三方应用程序当前的应用场景，导致操作系统无法根据第三方应用程序的具体应用场景进行针对性的系统资源适配。

为了使操作系统能够区分第三方应用程序的具体应用场景，需要打通第三方应用程序与操作系统之的数据通信，使得操作系统能够随时获取第三方应用程序当前的场景信息，进而基于当前场景进行针对性的系统资源适配。

以操作系统为Android系统为例，存储器120中存储的程序和数据如图9所示，存储器120中可存储有Linux内核层320、系统运行时库层340、应用框架层360和应用层380，其中，Linux内核层320、系统运行库层340和应用框架层360属于操作系统空间，应用层380属于用户空间。Linux内核层320为电子设备的各种硬件提供了底层的驱动，如显示驱动、音频驱动、摄像头驱动、蓝牙驱动、Wi-Fi驱动、电源管理等。系统运行库层340通过一些C/C++库来为Android系统提供了主要的特性支持。如SQLite库提供了数据库的支持，OpenGL/ES库提供了3D绘图的支持，Webkit库提供了浏览器内核的支持等。在系统运行时库层340中还提供有安卓运行时库(Android runtime)，它主要提供了一些核心库，能够允许开发者使用Java语言来编写Android应用。应用框架层360提供了构建应用程序时可能用到的各种API，开发者也可以通过使用这些API来构建自己的应用程序，比如活动管理、窗口管理、视图管理、通知管理、内容提供者、包管理、通话管理、资源管理、定位管理。应用层380中运行有至少一个应用程序，这些应用程序可以是操作系统自带的原生应用程序，比如联系人程序、短信程序、时钟程序、相机应用等；也可以是第三方开发者所开发的第三方应用程序，比如游戏类应用程序、即时通信程序、相片美化程序、分类模型生成程序等。

以操作系统为IOS系统为例，存储器120中存储的程序和数据如图10所示，IOS系统包括：核心操作系统层420(Core OS layer)、核心服务层440(Core Services layer)、媒体层460(Media layer)、可触摸层480(Cocoa Touch Layer)。核心操作系统层420包括了操作系统内核、驱动程序以及底层程序框架，这些底层程序框架提供更接近硬件的功能，以供位于核心服务层440的程序框架所使用。核心服务层440提供给应用程序所需要的系统服务和/或程序框架，比如基础(Foundation)框架、账户框架、广告框架、数据存储框架、网络连接框架、地理位置框架、运动框架等等。媒体层460为应用程序提供有关视听方面的接口，如图形图像相关的接口、音频技术相关的接口、视频技术相关的接口、音视频传输技术的无线播放(AirPlay)接口等。可触摸层480为应用程序开发提供了各种常用的界面相关的框架，可触摸层480负责用户在电子设备上的触摸交互操作。比如本地通知服务、远程推送服务、广告框架、游戏工具框架、消息用户界面接口(User Interface，UI)框架、用户界面UIKit框架、地图框架等等。

在图10所示出的框架中，与大部分应用程序有关的框架包括但不限于：核心服务层440中的基础框架和可触摸层480中的UIKit框架。基础框架提供许多基本的对象类和数据类型，为所有应用程序提供最基本的系统服务，和UI无关。而UIKit框架提供的类是基础的UI类库，用于创建基于触摸的用户界面，iOS应用程序可以基于UIKit框架来提供UI，所以它提供了应用程序的基础架构，用于构建用户界面，绘图、处理和用户交互事件，响应手势等等。

其中，在IOS系统中实现第三方应用程序与操作系统数据通信的方式以及原理可参考Android系统，本申请在此不再赘述。

其中，输入装置130用于接收输入的指令或数据，输入装置130包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置140用于输出指令或数据，输出装置140包括但不限于显示设备和扬声器等。在一个示例中，输入装置130和输出装置140可以合设，输入装置130和输出装置140为触摸显示屏，该触摸显示屏用于接收用户使用手指、触摸笔等任何适合的物体在其上或附近的触摸操作，以及显示各个应用程序的用户界面。触摸显示屏通常设置在电子设备的前面板。触摸显示屏可被设计成为全面屏、曲面屏或异型屏。触摸显示屏还可被设计成为全面屏与曲面屏的结合，异型屏与曲面屏的结合，本申请实施例对此不加以限定。

除此之外，本领域技术人员可以理解，上述附图所示出的电子设备的结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，电子设备中还包括射频电路、输入单元、传感器、音频电路、无线保真(wireless fidelity，WiFi)模块、电源、蓝牙模块等部件，在此不再赘述。

在本申请实施例中，各步骤的执行主体可以是上文介绍的电子设备。可选地，各步骤的执行主体为电子设备的操作系统。操作系统可以是安卓系统，也可以是IOS系统，或者其它操作系统，本申请实施例对此不作限定。

本申请实施例的电子设备，其上还可以安装有显示设备，显示设备可以是各种能实现显示功能的设备，例如：阴极射线管显示器(cathode ray tubedisplay，简称CR)、发光二极管显示器(light-emitting diode display，简称LED)、电子墨水屏、液晶显示屏(liquid crystal display，简称LCD)、等离子显示面板(plasma display panel，简称PDP)等。用户可以利用电子设备101上的显示设备，来查看显示的文字、图像、视频等信息。所述电子设备可以是智能手机、平板电脑、游戏设备、AR(Augmented Reality，增强现实)设备、汽车、数据存储装置、音频播放装置、视频播放装置、笔记本、桌面计算设备、可穿戴设备诸如电子手表、电子眼镜、电子头盔、电子手链、电子项链、电子衣物等设备。

在图7所示的电子设备中，处理器110可以用于调用存储器120中存储的分类模型生成应用程序，并具体执行以下操作：

基于所述伪标签数据集合生成数据源分类模型。

在一个实施例中，所述处理器110在执行获取针对各训练数据源进行人工标注所得到的标签，将所述各训练数据源和所述各训练数据源对应的所述标签保存在训练数据集合中之前，还执行以下操作：

通过随机采样获取第一数据源集合；

获取针对各测试数据源进行人工标注所得到的标签，将所述各测试数据源和所述各测试数据源对应的所述标签保存在测试数据集合中。

在一个实施例中，所述处理器110在执行基于所述各训练数据源的属性信息对所述各训练数据源进行拓展处理，获得伪标签数据集合时，具体执行以下操作：

基于所述训练数据集合生成初始分类模型；

获取通过随机采样获取第二数据源集合，基于所述初始分类模型对所述第二数据源集合中的所有数据源标注对应的所述标签，将所述第二数据源集合中的所有数据源与所述标签保存在伪标签数据集合中。

获取所述训练数据集合中的目标数据源与所述目标数据源对应的目标标签；

对所述相似数据源标注所述目标标签，将所述相似数据源与所述目标标签保存在伪标签数据集合中。

在一个实施例中，所述处理器110在执行基于所述伪标签数据集合生成数据源分类模型之前，还执行以下操作：

基于所述训练数据集合生成第一分类模型；

若所述第一分类模型的准确率大于所述第二分类模型的准确率，对所述目标数量的伪标签数据中的标签进行更改处理。

在一个实施例中，所述处理器110在执行若所述第一分类模型的准确率大于所述第二分类模型，对所述目标数据的伪标签数据中的标签进行更改处理之前，还执行以下操作：

基于所述第一分类模型对所述各测试数据源标注标签，获得第一测试集合；

对所述测试数据集合和所述第一测试集合进行比对处理获得第一分类模型的准确率，对所述测试数据集合和所述第二测试集合进行比对处理获得第二分类模型的准确率。

在一个实施例中，所述处理器110在执行基于所述伪标签数据集合生成数据源分类模型之后，还执行以下操作：

获取待分类数据源集合，采用所述数据源分类模型并基于所述标签，对所述待分类数据源集合中的各数据源进行标注处理。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种分类模型生成方法，其特征在于，所述方法包括：

基于所述伪标签数据集合生成数据源分类模型。

2.根据权利要求1所述的方法，其特征在于，所述获取针对各训练数据源进行人工标注所得到的标签，将所述各训练数据源和所述各训练数据源对应的所述标签保存在训练数据集合中之前，还包括：

通过随机采样获取第一数据源集合；

3.根据权利要求1所述的方法，其特征在于，所述基于所述各训练数据源的属性信息对所述各训练数据源进行拓展处理，获得伪标签数据集合，包括：

基于所述训练数据集合生成初始分类模型；

4.根据权利要求1所述的方法，其特征在于，所述基于所述各训练数据源的属性信息对所述各训练数据源进行拓展处理，获得伪标签数据集合，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述各训练数据源的属性信息对所述各训练数据源进行拓展处理，获得伪标签数据集合，包括：

6.根据权利要求2所述的方法，其特征在于，所述基于所述伪标签数据集合生成数据源分类模型之前，还包括：

基于所述训练数据集合生成第一分类模型；

7.根据权利要求6所述的方法，其特征在于，所述若所述第一分类模型的准确率大于所述第二分类模型，对所述目标数据的伪标签数据中的标签进行更改处理之前，还包括：

8.根据权利要求1所述的方法，其特征在于，所述基于所述伪标签数据集合生成数据源分类模型之后，还包括：

9.一种分类模型生成装置，其特征在于，所述装置包括：

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～8任意一项的方法步骤。

11.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～8任意一项的方法步骤。