CN115034300A

CN115034300A - 分类模型训练方法以及装置

Info

Publication number: CN115034300A
Application number: CN202210635079.XA
Authority: CN
Inventors: 鲍梦瑶; 刘佳伟; 章鹏; 张谦; 贾茜
Original assignee: Ant Blockchain Technology Shanghai Co Ltd
Current assignee: Ant Blockchain Technology Shanghai Co Ltd
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2022-09-09

Abstract

本说明书实施例提供分类模型训练方法以及装置，其中所述分类模型训练方法包括：获取训练样本数据以及目标样本标签，并根据所述训练样本数据以及所述目标样本标签训练获得中间分类器，其中，所述训练样本数据包括目标项目的历史待审核项目数据，将所述训练样本数据及所述目标样本标签输入所述中间分类器，获得所述训练样本数据对应的样本测试结果，根据所述样本测试结果，确定所述训练样本数据的训练样本标签，根据所述训练样本数据以及所述训练样本标签，训练获得目标分类模型，其中，所述目标分类模型用于对所述目标项目的待审核项目数据进行分类，并输出对应的分类结果，所述分类结果用于确定所述待审核项目数据的合规审核结果。

Description

分类模型训练方法以及装置

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种分类模型训练方法。本说明书一个或者多个实施例同时涉及一种分类模型训练装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

随着信息技术快速发展，大数据时代已经来临。大数据为用户带来信息共享、便捷生活的同时，还存在着个人隐私泄漏等诸多数据安全的问题。

目前出现越来越多的应用程序，以为用户提供多样化的服务，但为保证应用程序能够通过合理的方式收集用户的相关属性信息，用户在使用应用程序前，应用程序通常会向用户展示隐私协议，以使得用户阅读并了解相关的隐私协议内容，做到向用户告知隐私协议内容的目的，但应用程序在向用户展示隐私协议之前，需对该隐私协议的内容进行合规自查，以确定其内容是否符合规定的合规条件，而目前的合规自查方式，多是借助机器学习模型来实现，但由于机器学习模型需要借助大量有标签的样本数据进行模型训练，以保证其输出结果的准确性，而目前样本数据的标签多是通过人工标注生成，对于庞大的样本数据集，人工标注不仅会耗费大量时间，影响模型训练的效率，而且对人员的监管合规行业经验的要求也较高，人工标注过程中，往往会存在信息获取滞后、信息真实性不易核验等问题，使得人工标注生成的标签，其准确性较低，利用这部分标签进行模型训练，会对模型训练结果的准确性产生影响。因此亟需一种有效的方法以解决此类问题。

发明内容

有鉴于此，本说明书实施例提供了一种分类模型训练方法。本说明书一个或者多个实施例同时涉及一种分类模型训练装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种分类模型训练方法，包括：

获取训练样本数据以及目标样本标签，并根据所述训练样本数据以及所述目标样本标签训练获得中间分类器，其中，所述训练样本数据包括目标项目的历史待审核项目数据；

将所述训练样本数据及所述目标样本标签输入所述中间分类器，获得所述训练样本数据对应的样本测试结果；

根据所述样本测试结果，确定所述训练样本数据的训练样本标签；

根据所述训练样本数据以及所述训练样本标签，训练获得目标分类模型，其中，所述目标分类模型用于对所述目标项目的待审核项目数据进行分类，并输出对应的分类结果，所述分类结果用于确定所述待审核项目数据的合规审核结果。

可选地，所述获取训练样本数据以及目标样本标签，包括：

获取训练样本数据以及初始样本标签，并根据所述训练样本数据以及所述初始样本标签训练获得初始分类器，其中，所述训练样本数据包括目标项目的历史待审核项目数据；

将所述训练样本数据及所述初始样本标签输入所述初始分类器，获得所述训练样本数据对应的第一样本测试结果；

根据所述第一样本测试结果，确定所述训练样本数据的目标样本标签。

可选地，所述将所述训练样本数据及所述目标样本标签输入所述中间分类器，获得所述训练样本数据对应的样本测试结果，包括：

将所述训练样本数据及所述目标样本标签输入第一中间分类器，获得所述训练样本数据对应的第二样本测试结果。

可选地，所述样本测试结果中包含所述目标样本标签及预测样本标签，所述预测样本标签通过所述中间分类器对所述训练样本数据进行标签预测生成；

相应的，所述根据所述样本测试结果，确定所述训练样本数据的训练样本标签，包括：

将所述目标样本标签与所述测试样本标签进行比对，并根据比对结果确定所述样本测试结果的准确度是否大于等于预设准确度阈值；

若是，则将所述目标样本标签作为所述训练样本数据的训练样本标签。

可选地，在根据比对结果确定所述样本测试结果的准确度小于预设准确度阈值的情况下，所述方法还包括：

对所述样本测试结果进行筛选，获得第一类型的样本测试结果及第二类型的样本测试结果；

根据所述第一类型的样本测试结果中包含的预测样本标签，对所述第一类型的样本测试结果中包含的目标样本标签进行调整，生成调整样本标签；

将所述调整样本标签及所述第二类型的样本测试结果中包含的目标样本标签作为待测试样本标签。

可选地，所述分类模型训练方法，还包括：

根据所述训练样本数据以及所述待测试样本标签训练获得第二中间分类器；

将所述训练样本数据及所述待测试样本标签输入所述第二中间分类器，获得所述训练样本数据对应的第三样本测试结果；

根据所述第三样本测试结果，确定所述训练样本数据的训练样本标签。

可选地，所述根据所述训练样本数据以及所述训练样本标签，训练获得目标分类模型，包括：

将所述训练样本数据及所述目标样本标签输入待训练的分类模型的词频统计模块进行处理，生成对应的第一词频统计结果；

将所述第二词频统计结果输入所述待训练的分类模型的分类模块，其中，所述分类模块根据所述第一词频统计结果对所述训练样本数据对应的分类结果进行预测，并根据预测结果及所述目标样本标签，对所述待训练的分类模型的模型参数进行调整，生成目标分类模型。

可选地，所述分类模型训练方法，还包括：

获取目标项目的待审核项目数据；

将所述待审核项目数据输入所述目标分类模型的所述词频统计模块，通过所述词频统计模块对所述待审核项目数据包含的词单元进行词频统计处理，生成对应的第二词频统计结果；

将所述第二词频统计结果输入所述目标分类模型的分类模块，其中，所述分类模块根据所述第二词频统计结果筛选词频大于预设阈值的目标词单元，并根据所述目标词单元对所述待审核项目数据对应的分类结果进行预测；

获取所述目标分类模型预测输出的所述待审核项目数据对应的分类结果。

可选地，所述训练样本数据包括至少一个应用程序提供的隐私协议数据，所述目标样本标签用于表征所述隐私协议数据对预设内容的包含结果。

根据本说明书实施例的第二方面，提供了一种分类模型训练装置，包括：

获取模块，被配置为获取训练样本数据以及目标样本标签，并根据所述训练样本数据以及所述目标样本标签训练获得中间分类器，其中，所述训练样本数据包括目标项目的历史待审核项目数据；

输入模块，被配置为将所述训练样本数据及所述目标样本标签输入所述中间分类器，获得所述训练样本数据对应的样本测试结果；

确定模块，被配置为根据所述样本测试结果，确定所述训练样本数据的训练样本标签；

训练模块，被配置为根据所述训练样本数据以及所述训练样本标签，训练获得目标分类模型，其中，所述目标分类模型用于对所述目标项目的待审核项目数据进行分类，并输出对应的分类结果，所述分类结果用于确定所述待审核项目数据的合规审核结果。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令时实现所述分类模型训练方法的步骤。

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述分类模型训练方法的步骤。

本说明书一个实施例通过获取训练样本数据以及目标样本标签，并根据所述训练样本数据以及所述目标样本标签训练获得中间分类器，其中，所述训练样本数据包括目标项目的历史待审核项目数据，将所述训练样本数据及所述目标样本标签输入所述中间分类器，获得所述训练样本数据对应的样本测试结果，根据所述样本测试结果，确定所述训练样本数据的训练样本标签，根据所述训练样本数据以及所述训练样本标签，训练获得目标分类模型，其中，所述目标分类模型用于对所述目标项目的待审核项目数据进行分类，并输出对应的分类结果，所述分类结果用于确定所述待审核项目数据的合规审核结果。

本说明书实施例中，由于获取的目标样本标签往往会存在标签噪声，利用这些标签噪声进行分类模型训练，会显著降低分类模型的训练效果，因此，本说明书实施例利用含有大量标签噪声的训练样本数据及目标样本标签构建中间分类器，以利用中间分类器从目标样本标签中筛选可能存在标注错误的样本标签，然后对其进行调整，通过这种方式可有效提高训练样本数据的样本标签标注质量；另外，利用训练样本数据及调整生成的训练样本标签训练获得目标分类模型，有利于保证目标分类模型的训练结果的准确性。

附图说明

图1是本说明书一个实施例提供的一种分类模型训练方法的处理流程图；

图2a是本说明书一个实施例提供的分类模型的示意图；

图2b是本说明书一个实施例提供的一种隐私协议解析流程的示意图；

图2c是本说明书一个实施例提供的一种分类模型训练过程的示意图；

图3是本说明书一个实施例提供的一种分类模型训练方法的处理过程流程图；

图4是本说明书一个实施例提供的一种分类模型训练装置的示意图；

图5是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

App：移动互联网应用，Application的缩写。

App隐私协议：App用户协议和隐私政策，即用户与企业之间就个人信息收集、处理所达成的协议，是个人了解自身信息实现方式的途径，也是企业获取用户信息控制权的渠道。本着“告知-同意原则”，App方在收集个人信息前，依法保障用户知情权，对如何采集、存储、使用、保护用户个人信息进行充分告知，与用户签订协议，明确隐私，获得授权。

隐私合规：指App在其隐私声明页中声明的需要采集的个人隐私数据信息和其在代码实现过程中真实采集的个人隐私数据信息需要符合国家的规定。

过拟合：过拟合(over fitting)是指过于紧密或精确地匹配特定数据集，以至于无法良好地拟合其他数据或预测未来的观察结果的现象。过拟合模型指的是相较有限的数据而言，参数过多或者结构过于复杂的统计模型。

欠拟合：欠拟合(under fitting)是指模型拟合程度不高，数据距离拟合曲线较远，或指模型没有很好地捕捉到数据特征，不能够很好地拟合数据。

强分类器/弱分类器：一般的说，如果一个分类器的分类准确率在60％-80％，即：比随机预测略好，但准确率却不太高，我们可以称之为“弱分类器”。反之，如果分类精度90％以上，则是强分类器。

在本说明书中，提供了一种分类模型训练方法，本说明书同时涉及一种分类模型训练装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本说明书一个实施例提供的一种分类模型训练方法的处理流程图，包括步骤102至步骤108。

步骤102，获取训练样本数据以及目标样本标签，并根据所述训练样本数据以及所述目标样本标签训练获得中间分类器，其中，所述训练样本数据包括目标项目的历史待审核项目数据。

具体的，在通过应用程序向用户提供服务时，通常会在用户使用应用程序前，通过应用程序会向用户展示隐私协议，以使得用户阅读并了解相关的隐私协议内容，做到向用户告知隐私协议内容的目的，但应用程序在向用户展示隐私协议之前，需对该隐私协议的内容进行合规自查，以确定其内容是否符合规定的合规条件，而目前主要是依靠监管合规专业人力的经验来分析与判断隐私协议内容的合规性，不仅效率较低，对人员的监管合规行业经验的要求也较高，而且存在信息获取滞后、信息真实性不易核验等问题，这对合规自查的及时性、有效性造成了很大障碍。

基于此，本说明书实施例通过获取训练样本数据以及目标样本标签，并根据所述训练样本数据以及所述目标样本标签训练获得中间分类器，其中，所述训练样本数据包括目标项目的历史待审核项目数据，将所述训练样本数据及所述目标样本标签输入所述中间分类器，获得所述训练样本数据对应的样本测试结果，根据所述样本测试结果，确定所述训练样本数据的训练样本标签，根据所述训练样本数据以及所述训练样本标签，训练获得目标分类模型。

具体的，本说明书实施例所述的目标项目可以是隐私协议合规项目，历史待审核项目数据即可以是至少一个应用程序提供的隐私协议数据，目标样本标签即可以用于表征隐私协议数据对预设内容的包含结果。例如，以判断句子内容是否包含“个人信息存储期限”为例，目标样本标签为“1”即表示“是”，即包含，即样本为正；目标样本标签为“0”即表示“否”，即不包含，则样本为负。

为了帮助企业规避合规风险性，帮助监管单位对非法应用程序(App)进行整治，隐私协议合规项目需要对隐私协议的协议内容进行解析，并与预设审核信息进行比较，从而判定应用程序的隐私协议是否合规。

例如，监管检查的一大重点是隐私协议内容是否按照要求进行了声明。本着“告知-同意原则”，应用程序在收集用户的个人信息前，依法保障用户知情权，对如何采集、存储、使用、保护用户个人信息进行充分告知，与用户签订协议，明确隐私，获得授权。

其中，审核信息即外部监管信息，包括预设审核规则和/或项目环境数据，所述预设审核规则即监管规则，包括但不限于监管条文、政策法规等，所述项目环境数据包括但不限于外部经营环境数据、外部监管环境数据以及外部项目反馈数据等。

基于此，在需对目标项目的待审核项目数据进行审核，以判断其是否合规的情况下，可先利用目标项目的历史待审核项目数据以及样本标签，训练获得用于对待审核项目数据进行审核的目标分类模型，具体可先获取目标项目的训练样本数据及目标样本标签，然后利用训练样本数据及目标样本标签训练获得中间分类器，以利用中间分类器对训练样本数据的标签进行预测，从而根据预测结果确定是否需对目标样本标签进行调整，其中，中间分类器可以是弱分类器。

具体实施时，获取训练样本数据以及目标样本标签，包括：

具体的，初始分类器可以是弱分类器。初始样本标签可以预先通过用户对训练样本数据进行标注生成。

在利用训练样本数据和目标样本标签训练中间分类器之前，可先获取训练样本数据以及初始样本标签，但由于初始样本标签中往往会存在标签噪声(有大量漏标为正样本的数据)，这些标签噪声会显著降低分类模型的训练效果，降低分类模型对隐私协议内容进行分类生成的分类结果的准确性。

因此，本说明书实施例在获取训练样本数据以及初始样本标签后，可先根据训练样本数据和初始样本标签训练初始分类器，以利用初始分类器对训练样本数据的标签进行预测，从而根据预测结果筛选出可能存在标注错误的训练样本数据，并对这部分训练样本数据的初始样本标签进行调整，得到目标样本标签。

本说明书实施例利用含有大量标签噪声的训练样本数据及初始样本标签构建初始分类器，以利用初始分类器从初始样本标签中筛选可能存在标注错误的样本标签，然后对其进行调整，通过这种方式可有效提高训练样本数据的样本标签标注质量。

步骤104，将所述训练样本数据及所述目标样本标签输入所述中间分类器，获得所述训练样本数据对应的样本测试结果。

具体的，在训练获得中间分类器后，即可将训练样本数据和目标样本标签输入中间分类器，以利用中间分类器重新对训练样本数据的标签进行预测，从而根据预测结果筛选出可能存在标注错误的训练样本数据，并再次对这部分训练样本数据的目标样本标签进行调整，得到训练样本标签。

其中，在将训练样本数据及初始样本标签输入初始分类器，获得训练样本数据对应的第一样本测试结果的情况下，将训练样本数据及目标样本标签输入中间分类器(第一中间分类器)，即获得训练样本数据对应的第二样本测试结果。

本说明书实施例利用含有大量标签噪声的训练样本数据及目标样本标签构建中间分类器，以利用中间分类器从目标样本标签中筛选可能存在标注错误的样本标签，然后对其进行调整，通过这种方式可有效提高训练样本数据的样本标签标注质量。

步骤106，根据所述样本测试结果，确定所述训练样本数据的训练样本标签。

具体的，如前所述，获得训练样本对应的样本测试结果后，可根据样本测试结果筛选出可能存在标注错误的训练样本数据，并再次对这部分训练样本数据的目标样本标签进行调整，得到训练样本标签。

具体实施时，样本测试结果中包含所述目标样本标签及预测样本标签，预测样本标签通过所述中间分类器对所述训练样本数据进行标签预测生成；

相应的，根据所述样本测试结果，确定所述训练样本数据的训练样本标签，包括：

具体的，将训练样本数据和目标样本标签输入中间分类器后，中间分类器可对训练样本数据的标签进行测试，并输出对应的样本测试结果。

其中，中间分类器输出的样本测试结果可以分为True Positive(TP)、TrueNegative(TN)、False Positive(FP)和False Negative(FN)四类，分别表示正确的阳性(中间分类器预测的测试样本标签为正，目标样本标签也为正)、正确的阴性(中间分类器预测的测试样本标签为负，目标样本标签也为负)、错误的阳性(中间分类器预测的测试样本标签为正，目标样本标签为负)以及错误的阴性(中间分类器预测的测试样本标签为负，目标样本标签为正)。

因此，在获得中间分类器输出的样本测试结果后，即可将样本测试结果中的目标样本标签与测试样本标签进行比对，并根据比对结果确定样本测试结果的准确度是否大于等于预设准确度阈值；若是，则将目标样本标签作为训练样本数据的训练样本标签。

其中，可利用中间分类器的准确率(Precision)和/或召回率(Recall)来确定样本测试结果的准确度。其中，准确率可表示样本测试结果中预测为正的训练样本数据中包含的真正的正样本；召回率可表示目标样本标签中正样本有多少被预测正确了。

准确率的计算公式如公式(1)所示；召回率的计算公式如公式(2)所示。

Precision＝TP/(TP+FP) 公式(1)

Recall＝TP/(TP+FN) 公式(2)

在确定准确率和/或召回率的值大于预设准确率阈值或召回率阈值的情况下，即可确定样本测试结果的准确度大于等于预设准确度阈值，然后即可将目标样本标签作为训练样本数据的训练样本标签。

或者，在根据比对结果确定所述样本测试结果的准确度小于预设准确度阈值的情况下，还可对所述样本测试结果进行筛选，获得第一类型的样本测试结果及第二类型的样本测试结果；

进一步的，可根据所述训练样本数据以及所述待测试样本标签训练获得第二中间分类器；

具体的，第一类型，即可以是False Positive(FP)和False Negative(FN)这两类；第二类型即可以是True Positive(TP)和True Negative(TN)这两类。

由于False Positive和False Negative这两类样本测试结果中，预测样本标签和目标样本标签不同，因此，这两个样本测试结果中的目标样本标签即可能存在标签噪声，需继续对其进行调整，具体可根据False Positive这一类型的样本测试结果中包含的预测样本标签，并结合专家经验对该类型的样本测试结果中包含的目标样本标签进行调整，生成调整样本标签，或者可根据False Negative这一类型的样本测试结果中包含的预测样本标签，并结合专家经验对该类型的样本测试结果中包含的目标样本标签进行调整，生成调整样本标签。

然后可将调整样本标签以及True Positive(TP)和True Negative(TN)这两类样本预测结果中不存在标签噪声的目标样本标签共同作为待测试样本标签，再根据训练样本数据以及待测试样本标签训练获得第二中间分类器，将训练样本数据及待测试样本标签输入第二中间分类器，获得训练样本数据对应的第三样本测试结果，根据第三样本测试结果，确定训练样本数据的训练样本标签。

其中，第二中间分类器同样可以是弱分类器。

实际应用中，根据第三样本测试结果确定训练样本数据的训练样本标签的过程，与前述类似，均可将第三样本测试结果中的目标样本标签和测试样本标签进行比对，并根据比对结果确定第三样本测试结果的准确度是否大于等于预设准确度阈值；若是，则将目标样本标签作为训练样本数据的训练样本标签；若否，则需再次对第三样本测试结果中的目标样本标签进行调整，并重复前述利用训练样本数据和调整后的样本标签重新构建更多的分类器，并利用该分类器对训练样本数据的标签进行预测的过程，直至确定样本测试结果的准确度大于等于预设准确度阈值的情况下，可进行分类模型的训练过程。

本领域技术人员可以理解，本说明书实施例不对中间分类器的具体数量进行限定，可以根据分类模型训练过程中的实际情况，根据需要选择。

本说明书实施例通过不断迭代训练新的分类器，以利用各分类器筛选潜在的错误标签样本，通过这种方式可有效地对训练样本数据和样本标签进行清洗，有利于提高训练样本数据以及样本标签的数据质量。

步骤108，根据所述训练样本数据以及所述训练样本标签，训练获得目标分类模型，其中，所述目标分类模型用于对所述目标项目的待审核项目数据进行分类，并输出对应的分类结果，所述分类结果用于确定所述待审核项目数据的合规审核结果。

具体的，确定训练样本数据以及训练样本标签后，即可利用训练样本数据和训练样本标签对待训练的分类模型进行训练，获得目标分类模型，以利用该目标分类模型对目标项目的待审核项目数据进行分类处理，从而根据分类结果对待审核项目数据是否合规进行判断。

具体实施时，根据所述训练样本数据以及所述训练样本标签，训练获得目标分类模型，包括：

具体的，本说明书实施例提供的分类模型的示意图如图2a所示，分类模型中包含输入层、词频统计模块、分类模块以及输出层。

确定训练样本数据的训练样本标签后，可将训练样本数据及训练样本标签通过输入层输入至待训练的分类模型的词频统计模块，以利用该词频统计模块对训练样本数据中各词单元的词频进行统计。其中，本说明书可利用TF-IDF(term frequency–inversedocument frequency)，将训练样本数据转换为数值向量，转换后的数值向量中即包含训练样本数据中各词单元的词频信息，然后可将该数值向量输入至待训练的分类模型的分类模块中。

由于TF意思是词频(Term Frequency)，IDF意思是逆文本频率指数(InverseDocument Frequency)。TFIDF的主要思想是：若某个词或短语(词单元)在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语对于这篇文章而言，具有很好的类别区分能力，适合用来对该篇文章分类。

因此，将数值向量输入至分类模块后，即可由分类模块根据各词单元对应的词频信息，筛选词频大于预设词频阈值的词单元，并通过该词单元对训练样本数据对应的分类结果进行预测，再通过输出层输出预测结果，其中，输出的预测结果为“0”或“1”；然后可将预测结果与目标样本标签进行比对，具体可通过计算预测结果与目标样本标签之间的损失值，并根据损失值对待训练的分类模型的模型参数进行调整的方式，实现模型训练，以获得目标分类模型。

具体实施时，训练获得目标分类模型后，可利用目标分类模型对目标项目中的待审核项目数据进行处理，以根据处理结果对待审核项目数据进行合规性检测，具体可通过以下方式实现：

获取目标项目的待审核项目数据；

具体的，如前所述，目标分类模型中包含输入层、词频统计模块、分类模块以及输出层。

因此，在需对目标项目的待审核项目数据进行合规性检测的情况下，可先将待审核项目数据以及审核信息通过输入层输入至目标分类模型的词频统计模块，以利用该词频统计模块对待审核项目数据中各词单元的词频进行统计，然后可将词频统计结果输入至目标分类模型的分类模块中，由分类模块根据各词单元对应的词频信息，筛选词频大于预设词频阈值的词单元，并通过审核信息以及该词单元对待审核项目数据对应的分类结果进行预测，再通过输出层输出预测结果，以根据预测结果对待审核项目数据进行合规性检测。例如，若预测结果为“1”，确定该待审核项目数据合规，若预测结果为“0”，即确定该待审核项目数据不合规。

本说明书实施例提供的一种隐私协议解析流程的示意图如图2b所示，通过对含有标签噪声的初始标注数据集进行清洗，以获得高质量的标注数据集，然后即可利用高质量的标注数据集训练获得分类模型，这一分类模型往往拥有更高的准确率和召回率。

在分类模型的测试阶段，即可将隐私协议文本和相关领域的法律法规输入分类模型，由分类模型隐私协议文本中的句子进行预测，判断隐私协议文本中是否包含相关法律法规要求的内容，以评估隐私协议政策的合规性。

另外，本说明书实施例提供的一种分类模型训练过程的示意图如图2c所示。

具体而言，对含有标签噪声的初始标注数据集进行清洗的过程，首先可利用这部分初始标注数据集训练获得一个弱分类器，再使用该弱分类器在初始标注数据集上进行训练测试，筛选出该弱分类器的预测结果与初始标注结果不同的样本，这些样本即为需要重新检查的样本，即潜在的标签错误样本。然后可基于弱分类器的预测结果，并结合专家经验对这些样本进行纠错调整后，获得了经过一轮清洗的新数据集。然后可使用该新数据集重新训练获得一个弱分类器，并利用该弱分类器重新对样本进行测试，筛选出弱分类器的预测结果与纠错调整后样本的标注结果不同的样本，并重复后续过程。在这个循环过程中，随着对样本的错误标签进行纠正，使得标注数据集的标签质量不断提升，弱分类器的预测效果也可以不断提升，使得弱分类器选定需要重新检查的样本也不断减少。从而形成一个良性循环，直到对样本进行测试时，确定标签错误数量占比小于某个阈值(例如错误标签数量占总标签数量的比例小于5％)时，停止这一循环，并使用高质量标签的标注数据集对待训练的分类模型进行训练。

考虑到隐私协议解析场景下的分类问题，往往正负样本比例极不均衡，因此通过弱分类器筛选出的需要重新检查的样本(潜在的错误标签样本)往往数量远小于数据集的总数；相比人工直接逐条检查样本标签，这种方式显著地降低了需要检查的样本数据，降低了人工投入。

另外，这种处理方式的关键在于使用一个弱分类器来寻找标注数据集中潜在的错误标签样本，利用弱分类器的欠拟合性，检查弱分类器预测结果与标注结果不同的样本，可以更有效、全面的找到数据集中的错误标签样本。

本说明书一个实施例通过获取训练样本数据以及目标样本标签，并根据所述训练样本数据以及所述目标样本标签训练获得中间分类器，其中，所述训练样本数据包括目标项目的历史待审核项目数据，将所述训练样本数据及所述目标样本标签输入所述中间分类器，获得所述训练样本数据对应的样本测试结果，根据所述样本测试结果，确定所述训练样本数据的训练样本标签，根据所述训练样本数据以及所述训练样本标签，训练获得目标分类模型。

下述结合附图3，以本说明书提供的分类模型训练方法在对隐私协议进行分类的应用为例，对所述分类模型训练方法进行进一步说明。其中，图3示出了本说明书一个实施例提供的一种分类模型训练方法的处理过程流程图，具体步骤包括步骤302至步骤324。

步骤302，获取应用程序的隐私协议数据以及所述隐私协议数据对应的初始样本标签。

步骤304，根据隐私协议数据以及初始样本标签训练获得初始分类器。

步骤306，将隐私协议数据及初始样本标签输入初始分类器，获得隐私协议数据对应的第一预测样本标签。

步骤308，将初始样本标签与第一预测样本标签进行比对，并根据比对结果确定第一预测样本标签的准确度是否大于等于预设准确度阈值。

若步骤308的执行结果为否，则执行步骤310。

步骤310，根据第一预测样本标签对初始样本标签进行调整，生成目标样本标签。

步骤312，根据隐私协议数据以及目标样本标签训练获得中间分类器。

步骤314，将隐私协议数据及目标样本标签输入中间分类器，获得隐私协议数据对应的第二预测样本标签。

步骤316，将目标样本标签与所述第二预测样本标签进行比对，并根据比对结果确定第二预测样本标签的准确度是否大于等于预设准确度阈值。

若步骤316的执行结果为是，则执行步骤318。

步骤318，将目标样本标签作为隐私协议数据的训练样本标签。

步骤320，将隐私协议数据及目标样本标签输入待训练的分类模型的词频统计模块，通过词频统计模块对隐私协议数据包含的词单元进行词频统计处理，生成对应的词频统计结果。

步骤322，将词频统计结果输入待训练的分类模型的分类模块，其中，分类模块根据词频统计结果筛选词频大于预设阈值的目标词单元，并根据目标词单元对隐私协议数据对应的分类结果进行预测。

步骤324，根据预测结果及目标样本标签，对待训练的分类模型的模型参数进行调整，生成目标分类模型，其中，目标分类模型用于对应用程序的隐私协议数据进行分类，并输出对应的分类结果，分类结果用于确定隐私协议数据的合规审核结果。

本说明书实施例中，由于获取的初始样本标签往往会存在标签噪声，利用这些标签噪声进行分类模型训练，会显著降低分类模型的训练效果，因此，本说明书实施例利用含有大量标签噪声的训练样本数据及样本标签构建分类器，以利用分类器从样本标签中筛选可能存在标注错误的样本标签，然后对其进行调整，通过这种方式可有效提高训练样本数据的样本标签标注质量；另外，利用训练样本数据及调整生成的训练样本标签训练获得目标分类模型，有利于保证目标分类模型的训练结果的准确性。

与上述方法实施例相对应，本说明书还提供了分类模型训练装置实施例，图4示出了本说明书一个实施例提供的一种分类模型训练装置的示意图。如图4所示，该装置包括：

获取模块402，被配置为获取训练样本数据以及目标样本标签，并根据所述训练样本数据以及所述目标样本标签训练获得中间分类器，其中，所述训练样本数据包括目标项目的历史待审核项目数据；

输入模块404，被配置为将所述训练样本数据及所述目标样本标签输入所述中间分类器，获得所述训练样本数据对应的样本测试结果；

确定模块406，被配置为根据所述样本测试结果，确定所述训练样本数据的训练样本标签；

训练模块408，被配置为根据所述训练样本数据以及所述训练样本标签，训练获得目标分类模型，其中，所述目标分类模型用于对所述目标项目的待审核项目数据进行分类，并输出对应的分类结果，所述分类结果用于确定所述待审核项目数据的合规审核结果。

可选地，所述获取模块402，进一步被配置为：

可选地，所述输入模块404，进一步被配置为：

相应的，所述确定模块406，进一步被配置为：

可选地，所述分类模型训练装置，还包括第一处理模块；

在根据比对结果确定所述样本测试结果的准确度小于预设准确度阈值的情况下，所述第一处理模块被配置为：

可选地，所述分类模型训练装置，还包括第二处理模块，被配置为：

可选地，所述训练模块408，进一步被配置为：

可选地，所述分类模型训练装置，还包括预测模块，被配置为：

获取目标项目的待审核项目数据；

上述为本实施例的一种分类模型训练装置的示意性方案。需要说明的是，该分类模型训练装置的技术方案与上述的分类模型训练方法的技术方案属于同一构思，分类模型训练装置的技术方案未详细描述的细节内容，均可以参见上述分类模型训练方法的技术方案的描述。

图5示出了根据本说明书一个实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接，数据库550用于保存数据。

计算设备500还包括接入设备540，接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图5所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备500可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。

其中，所述存储器510用于存储计算机可执行指令，处理器520用于执行计算机可执行指令实现所述分类模型训练方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的分类模型训练方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述分类模型训练方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于实现所述分类模型训练方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的分类模型训练方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述分类模型训练方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种分类模型训练方法，包括：

2.根据权利要求1所述的分类模型训练方法，所述获取训练样本数据以及目标样本标签，包括：

3.根据权利要求2所述的分类模型训练方法，所述将所述训练样本数据及所述目标样本标签输入所述中间分类器，获得所述训练样本数据对应的样本测试结果，包括：

4.根据权利要求1所述的分类模型训练方法，所述样本测试结果中包含所述目标样本标签及预测样本标签，所述预测样本标签通过所述中间分类器对所述训练样本数据进行标签预测生成；

5.根据权利要求4所述的分类模型训练方法，在根据比对结果确定所述样本测试结果的准确度小于预设准确度阈值的情况下，所述方法还包括：

6.根据权利要求5所述的分类模型训练方法，还包括：

7.根据权利要求1所述的分类模型训练方法，所述根据所述训练样本数据以及所述训练样本标签，训练获得目标分类模型，包括：

8.根据权利要求7所述的分类模型训练方法，还包括：

获取目标项目的待审核项目数据；

9.根据权利要求1所述的分类模型训练方法，所述训练样本数据包括至少一个应用程序提供的隐私协议数据，所述目标样本标签用于表征所述隐私协议数据对预设内容的包含结果。

10.一种分类模型训练装置，包括：

11.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令实现权利要求1至9任意一项所述分类模型训练方法的步骤。

12.一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求1至9任意一项所述分类模型训练方法的步骤。