CN112085219B

CN112085219B - 模型训练方法、短信审核方法、装置、设备以及存储介质

Info

Publication number: CN112085219B
Application number: CN202011093027.1A
Authority: CN
Inventors: 何烩烩; 王乐义; 刘明浩; 郭江亮
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2024-02-13
Anticipated expiration: 2040-10-13
Also published as: CN112085219A; US20230351241A1; WO2022077880A1; EP4006745A1; EP4006745A4

Abstract

本申请公开了模型训练方法、短信审核方法、装置、设备以及存储介质，涉及人工智能领域。模型训练的具体实现方案为：对第一未标注样本进行样本约减，得到第二未标注样本；将第二未标注样本输入机器学习模型进行预测，得到对第二未标注样本的预测结果对应的概率；根据概率从第二未标注样本中选择出第三未标注样本；利用标注后的第三未标注样本训练机器学习模型。本申请实施例通过样本约减去除冗余样本，使得选出的样本具备一定的代表性。并且使用主动学习技术，利用机器学习模型进一步选出对于当前模型最有标注价值的信息量大的样本，减少了标注成本。

Description

模型训练方法、短信审核方法、装置、设备以及存储介质

技术领域

本申请涉及一种计算机技术领域，尤其涉及一种人工智能领域。

背景技术

模型训练需要大量的人工标注数据。并且随着业务的不断发展，需要不断的补充最新的标注数据，从而使模型随着业务迭代优化。然而，相关技术中，新增的标注样本可能没有提供新增的信息量，对于模型的性能提升没有显著的帮助。以短信审核业务为例，每天产生海量的短信日志，若随机从中挑选待标注样本，在耗费一定标注成本之后，可能对于模型的性能提升没有显著的帮助。

发明内容

本申请提供了一种模型训练方法、和短信审核方法、装置、设备以及存储介质。

根据本申请的第一方面，提供了一种模型训练方法，包括：

对第一未标注样本进行样本约减，得到第二未标注样本；

将第二未标注样本输入机器学习模型进行预测，得到对第二未标注样本的预测结果对应的概率；

根据概率从第二未标注样本中选择出第三未标注样本；

利用标注后的第三未标注样本训练机器学习模型。

根据本申请的第二方面，提供了一种短信审核模型的训练方法，包括：

采用上述实施例中的模型训练方法得到短信审核模型。

根据本申请的第三方面，提供了一种短信审核方法，包括：

获取待审核短信的文本信息；

利用关键词对待审核短信的文本信息进行初步审核；

将通过初步审核的待审核短信的文本信息，输入到短信审核模型进行预测，得到待审核短信的文本信息的审核结果，短信审核模型为采用上述实施例中的短信审核模型的训练方法得到的模型。

根据本申请的第四方面，提供了一种模型训练装置，包括：

约减单元，用于对第一未标注样本进行样本约减，得到第二未标注样本；

预测单元，用于将第二未标注样本输入机器学习模型进行预测，得到对第二未标注样本的预测结果对应的概率；

选择单元，用于根据概率从第二未标注样本中选择出第三未标注样本；

训练单元，用于利用标注后的第三未标注样本训练机器学习模型。

根据本申请的第五方面，提供了一种短信审核模型的训练装置，包括：

采用上述实施例中的模型训练装置得到短信审核模型。

根据本申请的第六方面，提供了一种短信审核装置，包括：

获取单元，用于获取待审核短信的文本信息；

第一审核单元，用于利用关键词对待审核短信的文本信息进行初步审核；

第二审核单元，用于将通过初步审核的待审核短信的文本信息，输入到短信审核模型进行预测，得到待审核短信的文本信息的审核结果，短信审核模型为采用上述实施例中的短信审核模型的训练方法得到的模型。

根据本申请的第七方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本申请任意一项实施例所提供的方法。

根据本申请的第八方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使该计算机执行本申请任意一项实施例所提供的方法。

根据本申请的第九方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

上述申请中的一个实施例具有如下优点或有益效果：通过样本约减使得选出的样本具备一定的代表性，并且使用主动学习技术，利用机器学习模型进一步选出对于当前模型最有标注价值的信息量大的样本，减少了标注成本。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请一实施例的模型训练方法的流程图；

图2是根据本申请一实施例的模型训练方法的样本约减的流程图；

图3是根据本申请另一实施例的模型训练方法的样本约减的流程图；

图4是根据本申请另一实施例的模型训练方法的流程图；

图5是根据本申请一实施例的短信审核模型的训练方法的流程图；

图6是根据本申请一实施例的短信审核方法的流程图；

图7是根据本申请一实施例的模型训练装置的示意图；

图8是根据本申请一实施例的短信审核模型的训练装置的示意图；

图9是根据本申请一实施例的短信审核装置的示意图；

图10是用来实现本申请实施例的模型训练和短信审核方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请一实施例的模型训练方法的流程图。参见图1，该模型训练方法包括：

步骤S110，对第一未标注样本进行样本约减，得到第二未标注样本；

步骤S120，将第二未标注样本输入机器学习模型进行预测，得到对第二未标注样本的预测结果对应的概率；

步骤S130，根据概率从第二未标注样本中选择出第三未标注样本；

步骤S140，利用标注后的第三未标注样本训练机器学习模型。

在相关技术中，模型迭代所使用的新增的标注样本和模型已经学习过的标注样本所包含的知识可能是一样的。也就是说，新增的标注样本可能没有提供新增的信息量，对于模型的性能提升没有显著的帮助。

本申请实施例提供一种模型训练方法，通过样本约减使得选择出的样本具备一定的代表性，基于主动学习技术进一步选出信息量大的样本。其中，主动学习可以包括在学习过程中由模型选择出未标记样本，并请求外界提供标记信息。主动学习的目标可以包括使用尽可能少的查询来取得好的学习性能。

在模型训练过程中，首先从短信生产系统的日志或短信咨询群中采集未标注短信。在步骤S110中，对采集到的第一未标注样本进行样本约减。通过样本约减对第一未标注样本进行去重处理，得到具备一定的代表性的第二未标注样本。

在步骤S120中，基于主动学习技术，将第二未标注样本输入机器学习模型进行预测。其中，机器学习模型可以对标注样本进行类别预测。以用于短信的机器学习模型为例，将第二未标注样本输入机器学习模型进行预测，可输出该短信是否通过审核的结果及预测结果对应的概率。

在步骤S130中，将步骤S120中得到的概率代入预先设置的选择策略的公式中进行计算，计算得到从第二未标注样本中选择出的第三未标注样本。

在步骤S140中，对步骤S130中选择出的第三未标注样本进行标注。然后利用标注后的第三未标注样本训练机器学习模型。

本申请实施例通过样本约减使得选出的样本具备一定的代表性，并且使用主动学习技术，利用机器学习模型进一步选出对于当前模型最有标注价值的信息量大的样本，减少了标注成本。以用于短信的机器学习模型为例，将短信数据从约减、预测、选择到标注的每一个步骤有机地连接在一起，并由此进行迭代优化，实现了短信数据闭环。在后续步骤中对选择出的样本进行标注，利用标注后的样本训练短信审核模型，实现短信审核模型自动迭代，从而更加有效地提高了模型的预测性能。

图2是根据本申请一实施例的模型训练方法的样本约减的流程图。如图2所示，在一种实施方式中，图1中的步骤S110，对第一未标注样本进行样本约减，得到第二未标注样本，包括：

步骤S210，计算样本之间的相似度；样本之间的相似度包括每两个第一未标注样本之间的相似度，和/或，每个第一未标注样本和历史样本之间的相似度；

步骤S220，根据样本之间的相似度进行样本约减。

在进行第一未标注样本之间的相似度计算之前，可先对第一未标注样本进行预处理。例如，将第一未标注样本中的数字统一用“${数字}”替换，将手机号统一用“${手机号}”替换。

为了提高相似度计算速度，可将相似度问题转换为集合问题，利用样本之间的交集和并集进行相似度计算。以短信样本为例，短信样本的文本信息可以看作是一个字符集。可利用以下公式计算两个样本之间的相似度和距离：

公式1：

公式2：

其中，s表示两个样本之间的相似度，common_len表示两个样本中包含的字符的交集，total_len表示两个样本中包含的字符的并集，d表示两个样本之间的距离。

在一种实施方式中，在相似度计算的过程中，还可将相似度计算结果缓存，避免重复计算。采用缓存机制可提高计算效率，进而提升系统整体运行效率。

除了上述将样本的文本信息看作是字符的集样本的文本信息的方法之外，也可以采用其他相似度策略。例如常见的将句子用向量进行表示，使用内积或者余弦相似度得到两个句子的相似度值。

以短信样本为例，数据A表示当前的新采集到的一批短信样本，数据B表示数据库中的历史样本。其中，历史样本包括标注样本和未标注样本。数据B的数据量可能较大，因此将数据B切成b1、b2、b3、b4…。在计算数据A与数据B的相似度的时候，通过计算A与b1的相似度、A与b2的相似度、A与b3的相似度…，以去除数据A中相似度过大的句子。经过以上处理，将剩余的数据A存入数据库中。

本申请实施例通过相似度计算进行样本约减，使得选出的样本具备一定的代表性，提高的样本的标注价值。

在一种实施方式中，根据概率从第二未标注样本中选择出第三未标注样本，包括：

利用预先设置的选择策略进行计算，得到第三未标注样本；选择策略包括最大熵策略、最小置信度策略、最小间隔策略和分类器投票策略中的至少一种。

在模型输出对第二未标注样本的预测结果之后，可将第二未标注样本的预测结果对应的概率代入到选择策略的公式进行计算，通过计算选择出对于当前模型最有标注价值的信息量大的样本。

上述选择策略的公式如下：

公式A：最大熵策略公式：

公式B：最小置信度策略公式：

公式C：最小间隔策略公式：

公式D：分类器投票策略公式：

上述公式中，x表示输入样本；P表示模型预测的概率，P_θ表示模型输出的预测概率，P_θ(y_i|x)表示输入样本为x时的预测类别为y_i的预测概率；y_i表示一个类别，y_i表示审核通过或者审核不通过；C表示分类器个数，V(y_i)表示投票给类别y_i的分类器的数量；表示最大熵策略选出的样本；/>表示最大置信度策略选出的样本；/>表示最小间隔策略选出的样本；/>表示分类器投票策略选出的样本。

上述公式中，argmax是一种对函数求参数的函数。当有另一个函数y＝f(x)时，若有结果x0＝argmax(f(x))，则表示当函数f(x)取x＝x0的时候，得到f(x)取值范围的最大值。同样地，argmin也是一种对函数求参数的函数。当有另一个函数y＝f(x)时，若有结果x0＝argmmin(f(x))，则表示当函数f(x)取x＝x0的时候，得到f(x)取值范围的最小值。也就是说，arg max f(x)是当f(x)取最大值时，x的取值。arg min f(x)是当f(x)取最小值时，x的取值。

通过上述选择策略，可选择出模型识别困难的样本。识别困难的样本中包含模型没有学习到的知识。因此，通过上述选择策略可选择出对于当前模型最有标注价值的信息量大的样本。

本申请实施例利用选择策略进一步选出对于当前模型最有标注价值的信息量大的样本，提高的样本的标注价值，减少了标注成本。进而在后续过程中利用标注后的样本训练短信审核模型，能够更加有效地提高模型的预测性能。

图3是根据本申请另一实施例的模型训练方法的样本约减的流程图。如图3所示，在一种实施方式中，图1中的步骤S130，根据概率从第二未标注样本中选择出第三未标注样本，还包括：

步骤S310，根据概率从第二未标注样本中选择出候选样本；

步骤S320，对候选样本进行样本约减，得到第三未标注样本。

在前述步骤S110中，对采集到的第一未标注样本进行了第一次样本约减。通过第一次样本约减对第一未标注样本进行去重处理，得到具备一定的代表性的第二未标注样本。

在步骤S120中，基于主动学习技术，将第二未标注样本输入机器学习模型进行预测，输出预测结果对应的概率。在步骤S310中，根据概率从第二未标注样本中选择出候选样本。具体可包括：利用预先设置的选择策略进行计算，得到候选样本；选择策略包括最大熵策略、最小置信度策略、最小间隔策略和分类器投票策略中的至少一种。在模型输出对第二未标注样本的预测结果之后，可将第二未标注样本的预测结果对应的概率代入到选择策略的公式进行计算，通过计算选择出对于当前模型最有标注价值的信息量大的候选样本。上述选择策略的公式可参见公式A至公式D的相关描述，在此不再赘述。

在步骤S320中，对候选样本进行第二次样本约减，通过第二次样本约减对候选样本进行去重处理，得到更加具备代表性的第三未标注样本。

在一个示例中，可通过相似度计算进行第二次样本约减。相似度计算的方法可参照前述步骤S210和步骤S220的相关描述，在此不再赘述。同样地，第二次样本约减也可以采用其他相似度策略。例如常见的将句子用向量进行表示，使用内积或者余弦相似度得到两个句子的相似度值。

在主动学习之后再经过第二次样本约减，可以再一次进行去重处理，使得到的第三未标注样本更加具备代表性，进一步提高的样本的标注价值。

在一种实施方式中，第三未标注样本的标注方式包括：离线标注和/或在线标注。

图4是根据本申请另一实施例的模型训练方法的流程图。以短信审核模型为例，在线自动迭代模型的数据流动过程如图4所示：

1)每天从短信生产系统中定时采样数据。例如可利用分布式消息系统kafka从短信生产系统中定时采样数据。进行第一次样本约减之后，存入数据库的未标注样本表中。在未标注样本表中，将新增的每条短信的属性设置为未选择。

2)判断相比于前一次启动主动学习模型选择未标注样本的时候，当前新增的已标注样本数量是否大于阈值。若大于阈值，则转向执行步骤3)，启动新一轮的未标注数据的选择操作。若小于阈值，则继续等待。

在这一步骤中，若新增的标注数据过少，即使启动了新一轮的主动学习选择未标注样本，其选出来的未标注样本与上一轮选出的未标注样本的数据质量可能是一样的。换句话说，新一轮选出来的未标注样本与上一轮选出的未标注样本包含的知识可能是类似的。这种情况属于一种标注资源浪费。应该尽量避免发生这种标注资源浪费的情况。

3)将数据库中的未标注且未被选择的所有样本，送入短信审核模型。基于短信审核模型与主动学习策略，选出待标注样本，再针对选出的待标注样本进行第二次样本约减。考虑到标注人员的标注效率，每天可以选择出几百条未标注样本。例如，每天可以选择出200条未标注样本。

4)对于选择出的待标注样本，可采用如下不同的标注方式中和至少之一：离线标注和在线标注。

在一个示例中，离线标注方式可包括：将选择出的第三未标注样本导出到excel(电子表格)，并自动发送邮件给相关标注人员进行标注。相关标注人员处理之后，对于含有已标注好的excel中的标注信息，可以设置检查机制与数据选择机制。检查机制主要检查标注样本中的相关字段是否都标注完成。数据选择机制可引入与业务相关的预定义的数据选择规则。通过数据选择机制这样设计可以引入业务领域知识，以使得选择出的标注样本能够满足业务需求。以短信审核业务为例，可设置以下几个选择规则：

a)选择人工审核通过，且非高投诉的样本作为正样本；

b)选择政策不允许的样本作为负样本；

c)选择非黑名单、非政策不允许、且人工审核不通过的样本作为负样本。

在另一个示例中，在线标注方式可包括：将选择出的第三未标注样本自动发单到在线评估平台。一方面，在线评估平台的数据来源可以是基于主动学习从短信生产系统的日志中选择出的未标注样本，也可以是运营人员创建的短信咨询群中采集的未标注样本。在线标注方法的优势在于，自动获取标注好的数据并且迭代短信审核模型，避免了离线标注方式中需要手动拷贝已标注好的excel中的标注信息到指定目录下的操作。

可将标注后的样本存入数据库，作为短信审核模型的训练样本，完成模型自动迭代。

在本申请实施例中，通过在线标注以及离线标注两种方式，达到随着业务发展以最小标注代价自动迭代短信审核模型的效果。还可以通过检查机制确保标注质量，通过数据选择机制引入相关业务领域先验知识，实现业务数据闭环以及机器学习模型自动迭代。

在一种实施方式中，上述方法还包括：

采用交叉熵损失函数和焦点损失函数训练机器学习模型。

交叉熵可在机器学习中作为损失函数。在一个示例中，可用p表示真实标记的分布，q则为训练后的模型的预测标记分布，交叉熵损失函数可以衡量p与q的相似性。

焦点损失函数(Focal Loss)可以解决样本类别不平衡以及样本分类难度不平衡等问题。在一个示例中，Focal Loss通过修改交叉熵函数，通过增加类别权重和样本难度权重调因子，来减缓上述问题，提升模型预测的精确度。

在本申请实施例中，在交叉熵损失函数中添加了Focal loss(焦点损失)函数，提升了模型预测的精确度。

根据本申请实施例的另一方面，提供了一种短信审核模型的训练方法，包括：采用上述实施例中的任意一种模型训练方法得到短信审核模型。具体来说，采用上述实施例中的任意一种模型训练方法得到的机器学习模型为短信审核模型。

图5是根据本申请一实施例的短信审核模型的训练方法的流程图。以短信样本为例，第一未标注样本为第一未标注短信样本，第二未标注样本为第二未标注短信样本，如图5所示，该短信审核模型的训练方法包括：

步骤S410，对第一未标注短信样本进行样本约减，得到第二未标注短信样本；

步骤S420，将第二未标注短信样本输入短信审核模型进行预测，得到对第二未标注短信样本的预测结果对应的概率；

步骤S430，根据概率从第二未标注短信样本中选择出第三未标注短信样本；

步骤S440，利用标注后的第三未标注短信样本训练短信审核模型。

本申请实施例的短信审核模型的训练方法中与上述模型训练算法的原理类似，可以参见上述模型训练方法中的相关描述，在此不再赘述。

图6是根据本申请一实施例的短信审核方法的流程图。如图6所示，该短信审核方法包括：

步骤S510，获取待审核短信的文本信息；

步骤S520，利用关键词对待审核短信的文本信息进行初步审核；

步骤S530，将通过初步审核的待审核短信的文本信息，输入到短信审核模型进行预测，得到待审核短信的文本信息的审核结果，短信审核模型为采用上述实施例中的短信审核模型的训练方法得到的模型。

上述实施例基于主动学习技术，通过模型主动选择识别困难的样本，提供给人工进行标注，以较少的标注成本，并自动迭代短信审核模型。此外，在主动学习之前和主动学习之后，通过前置与后置的样本约减技术，进一步实现了标注最有价值的数据。

在此基础上，本申请实施例还提供了一种能有效降低标注成本、快速提高模型性能的短信审核方法。该方法适用于所有需要通过增加标注数据，自动迭代机器学习模型，提高模型预测性能的场景。

在相关技术中，对于基于关键词与人工审核的短信审核方法，随着业务的不断发展，需要人工总结、补充关键词库，工作量较大。此外，关键词匹配方法仅仅利用了词汇的表层特征，没有充分挖掘词义关系和语义关系，存在较大的局限性。

对于利用机器学习模型进行短信审核的方法，需要大量的人工标注数据。且随着业务的不断发展，需要不断的补充最新的标注数据，从而使模型随着业务迭代优化。然而，短信业务每天产生海量的短信日志，若随机从中挑选出的待标注样本，新增的标注样本可能没有提供新增的信息量，在耗费一定标注成本之后，不一定能够给模型带来提升。

针对上述问题，本申请实施例提供了一种基于主动学习的短信审核方法。其中，短信审核方法采用两步策略，首先通过关键词库对短信文本进行审核，对于审核通过的样本，进一步通过机器学习模型进行审核。针对短信审核模型的持续迭代优化问题，采用了基于主动学习的未标注样本选择策略，并且采用了前置和/或后置样本约减策略，从而实现随着业务发展以最小标注代价自动迭代短信审核模型。

一个示例性的实现本申请短信审核方法的短信审核系统可包含短信采集、样本约减、主动学习策略、文本审核模型等几个模块。

(1)短信采集

未标注短信样本的一个数据来源是从短信生产系统的日志中每天定时采样未标注数据，存入数据库中。在一个示例中，当时时间段内获取的短信日志时间范围为昨晚12点到今晚12点。

未标注短信样本的另外一个数据来源是短信咨询群里咨询的未标注短信。从生产系统中获取的短信需要经过主动学习筛选出有标注价值的短信，从而减少标注成本。短信咨询群里的未标注短信是人工没办法识别的短信，通常自身有比较大的信息价值，因此可以直接被采集。

(2)样本约减

对于每天定时从短信生产系统中获取的这批未标注短信数据，可采用以下样本约减策略：批次内短信样本约减(batch reduce)、与未标注数据表中的历史短信数据进行约减(history reduce)。由于历史短信数据较多，可采用分页查询的操作，每次与一部分历史数据进行相似度计算。最后，将经过样本约减步骤的最新一批的短信存入数据库中。样本约减的具体实现方式可参照前述上述图1至图4中实施例的相关描述，在此不再赘述。

(3)主动学习

主动学习包括模型主动选择信息量大的未标注样本给专家进行标注，以实现在训练集较小的情况下，也可以获得较高的分类正确率。在本申请实施例短信审核方法与系统中，根据样本本身的信息量、样本的代表性选择有价值的样本。在主动学习选择未标注样本之前，以及选出未标注样本之后，分别设置了样本约减步骤，从而使得选出的样本具备一定的代表性。对于样本本身的信息量，可利用最大熵策略、最小置信度策略、最小间隔策略、分类器投票策略等多种选择策略，选择出信息量大的样本。上述选择策略的具体实现方式可参照前述上述图1至图4中实施例的相关描述，在此不再赘述。

(4)文本审核

首先输入待审核短信，先采用基于关键词库与正则匹配的规则方法对短信进行初步审核。该方法又称作屏蔽词策略。关键词库可由运营人员提供。同时运营人员也会提供经验积累下来的正则表达式。例如：(？:独家|劲爆|爆料)、(？:买|认购|认筹|赠)、(？:两房|住房|豪宅|别墅)和(？:惠|限时|特卖)等。

对于初步审核通过的样本，进一步通过短信审核模型进行审核。其中，短信审核模型包括但不限于逻辑回归、TextCNN或Transformer。其中，TextCNN是利用CNN(Convolutional Neural Networks卷积神经网络)对文本(Text)进行分类的算法。Transformer是指Transformer block(块)，它由自注意力机制模型和前向神经网络组成。Transformer与CNN类似，都是得到文本表示的一种方法。

此外，短信审核场景属于样本分类不平衡场景，审核不通过的负样本通常远远多于审核通过的正样本。因此，可在损失函数中采用focal loss，该损失函数对于处理正负样本不均衡、难易样本不均衡有较好的效果。

图7是根据本申请一实施例的模型训练装置的示意图。参见图7，该模型训练装置包括：

约减单元100，用于对第一未标注样本进行样本约减，得到第二未标注样本；

预测单元200，用于将第二未标注样本输入机器学习模型进行预测，得到对第二未标注样本的预测结果对应的概率；

选择单元300，用于根据概率从第二未标注样本中选择出第三未标注样本；

训练单元400，用于利用标注后的第三未标注样本训练机器学习模型。

在一种实施方式中，约减单元100用于：

计算样本之间的相似度；样本之间的相似度包括每两个第一未标注样本之间的相似度，和/或，每个第一未标注样本和历史样本之间的相似度；

根据样本之间的相似度进行样本约减。

在一种实施方式中，选择单元300用于：

在一种实施方式中，选择单元300还用于：

根据概率从第二未标注样本中选择出候选样本；

对候选样本进行样本约减，得到第三未标注样本。

在一种实施方式中，训练单元400还用于：

采用交叉熵损失函数和焦点损失函数训练机器学习模型。

根据本申请实施例的另一方面，提供了一种短信审核模型的训练装置，用于：

采用上述实施例中的模型训练装置得到短信审核模型。

图8是根据本申请一实施例的短信审核模型的训练装置的示意图。如图8所示，该短信审核模型的训练装置包括：

约减单元100，用于对第一未标注短信样本进行样本约减，得到第二未标注短信样本；

预测单元200，用于将第二未标注短信样本输入短信审核模型进行预测，得到对第二未标注短信样本的预测结果对应的概率；

选择单元300，用于根据概率从第二未标注短信样本中选择出第三未标注短信样本；

训练单元400，用于利用标注后的第三未标注短信样本训练短信审核模型。

图9是根据本申请一实施例的短信审核装置的示意图。如图9所示，该短信审核装置，包括：

获取单元500，用于获取待审核短信的文本信息；

第一审核单元600，用于利用关键词对待审核短信的文本信息进行初步审核；

第二审核单元700，用于将通过初步审核的待审核短信的文本信息，输入到短信审核模型进行预测，得到待审核短信的文本信息的审核结果，短信审核模型为采用上述实施例中的短信审核模型的训练方法得到的模型。

本申请实施例的模型训练装置、短信审核模型的训练装置和短信审核装置中的各模块/单元的功能可以参见上述方法中的对应描述，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

如图10所示，是根据本申请实施例的模型训练和短信审核方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图10所示，该电子设备包括：一个或多个处理器1301、存储器1402，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图10中以一个处理器1301为例。

存储器1302即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的模型训练和短信审核方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的模型训练和短信审核方法。

存储器1302作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的模型训练和短信审核方法对应的程序指令/模块(例如，附图7所示的约减单元100、预测单元200、选择单元300和训练单元400)。处理器1301通过运行存储在存储器1302中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的模型训练和短信审核方法。

存储器1302可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据模型训练和短信审核的电子设备的使用所创建的数据等。此外，存储器1302可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1302可选包括相对于处理器1301远程设置的存储器，这些远程存储器可以通过网络连接至模型训练和短信审核的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

模型训练和短信审核方法的电子设备还可以包括：输入装置1303和输出装置1304。处理器1301、存储器1302、输入装置1303和输出装置1304可以通过总线或者其他方式连接，图10中以通过总线连接为例。

输入装置1303可接收输入的数字或字符信息，以及产生与模型训练和短信审核的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1304可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS)服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

根据本申请实施例的技术方案，通过样本约减使得选出的样本具备一定的代表性，并且使用主动学习技术，利用机器学习模型进一步选出对于当前模型最有标注价值的信息量大的样本，减少了标注成本。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种模型训练方法，包括：

获取新增的第一未标注样本，对所述第一未标注样本进行样本约减，得到第二未标注样本；

将所述第二未标注样本输入机器学习模型进行预测，得到对所述第二未标注样本的预测结果对应的概率；

将每一第二未标注样本的预测结果对应的概率代入预先设置的选择策略，得到每一第二未标注样本对应的计算结果，将所述计算结果满足预设条件的第二未标注样本确定为候选样本，对所述候选样本进行样本约减得到第三未标注样本；

利用标注后的所述第三未标注样本训练所述机器学习模型，以对所述机器学习模型进行优化；

所述对第一未标注样本进行样本约减，得到第二未标注样本，包括：

对所述第一未标注样本中的指定字符进行替换；

将历史样本切分成多个样本片段；

计算替换后的每个所述第一未标注样本和所述多个样本片段之间的相似度；

根据替换后的每个所述第一未标注样本和所述多个样本片段之间的相似度进行样本约减。

2.根据权利要求1所述的方法，其中，对第一未标注样本进行样本约减，得到第二未标注样本，还包括：

计算每两个所述第一未标注样本之间的相似度；

根据每两个所述第一未标注样本之间的相似度进行样本约减。

3.根据权利要求1或2所述的方法，其中，所述选择策略包括最大熵策略、最小置信度策略、最小间隔策略和分类器投票策略中的至少一种。

4.根据权利要求1或2所述的方法，其中，所述第三未标注样本的标注方式包括：离线标注和/或在线标注。

5.根据权利要求1或2所述的方法，所述方法还包括：

采用交叉熵损失函数和焦点损失函数训练所述机器学习模型。

6.一种短信审核模型的训练方法，包括：

采用权利要求1-5任一项所述的模型训练方法得到短信审核模型。

7.一种短信审核方法，包括：

获取待审核短信的文本信息；

利用关键词对所述待审核短信的文本信息进行初步审核；

将通过所述初步审核的待审核短信的文本信息，输入到短信审核模型进行预测，得到所述待审核短信的文本信息的审核结果，所述短信审核模型为采用权利要求6所述的短信审核模型的训练方法得到的模型。

8.一种模型训练装置，包括：

约减单元，用于获取新增的第一未标注样本，对所述第一未标注样本进行样本约减，得到第二未标注样本；

预测单元，用于将所述第二未标注样本输入机器学习模型进行预测，得到对所述第二未标注样本的预测结果对应的概率；

选择单元，用于将每一第二未标注样本的预测结果对应的概率代入预先设置的选择策略，得到每一第二未标注样本对应的计算结果，将所述计算结果满足预设条件的第二未标注样本确定为候选样本，对所述候选样本进行样本约减得到第三未标注样本；

训练单元，用于利用标注后的所述第三未标注样本训练所述机器学习模型，以对所述机器学习模型进行优化；

所述约减单元，具体用于对所述第一未标注样本中的指定字符进行替换；将历史样本切分成多个样本片段；计算替换后的每个所述第一未标注样本和所述多个样本片段之间的相似度；根据替换后的每个所述第一未标注样本和所述多个样本片段之间的相似度进行样本约减。

9.根据权利要求8所述的装置，其中，所述约减单元还用于：

计算每两个所述第一未标注样本之间的相似度；

10.根据权利要求8或9所述的装置，其中，所述选择策略包括最大熵策略、最小置信度策略、最小间隔策略和分类器投票策略中的至少一种。

11.根据权利要求8或9所述的装置，其中，所述第三未标注样本的标注方式包括：离线标注和/或在线标注。

12.根据权利要求8或9所述的装置，所述训练单元还用于：

13.一种短信审核模型的训练装置，用于：

采用权利要求8-12任一项所述的模型训练装置得到短信审核模型。

14.一种短信审核装置，包括：

获取单元，用于获取待审核短信的文本信息；

第一审核单元，用于利用关键词对所述待审核短信的文本信息进行初步审核；

第二审核单元，用于将通过所述初步审核的待审核短信的文本信息，输入到短信审核模型进行预测，得到所述待审核短信的文本信息的审核结果，所述短信审核模型为采用权利要求6所述的短信审核模型的训练方法得到的模型。

15.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。