CN111177507B

CN111177507B - 多标记业务处理的方法及装置

Info

Publication number: CN111177507B
Application number: CN201911421935.6A
Authority: CN
Inventors: 方军鹏; 唐才智
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2023-06-23
Anticipated expiration: 2039-12-31
Also published as: CN111177507A

Abstract

本说明书实施例提供了针对业务模型新型数据预处理的方法，可以从多标记的训练样本中筛选出二分类的业务模型相关的初始样本，并利用针对多个类别提取的初始特征对这些初始样本进行特征重构，充分挖掘特征与特征之间、特征与属性类别之间的相关性，从而选择出针对当前二分类模型而言，更加准确的基准特征。当重构的基准特征和正/负样本本来的类别标签组合构成新的样本时，可以训练出更加有效的二分类的业务模型。进一步地，在进行多标记业务处理过程中，可以对业务数据同一提取初始特征，保持了特征的一致性，再由各个二分类的业务模型对初始特征进行转换，从而提供更有效的多标记业务处理结果。

Description

多标记业务处理的方法及装置

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及对业务模型进行数据预处理以重构特征空间、使用重构特征构建样本训练业务模型，以及通过所训练的多个业务模型联合确定业务数据对应的目标类别的方法及装置。

背景技术

在机器学习领域，多标记业务是广泛涉及的业务。例如在零售，图像，文本翻译，医疗保健，科学等等场景下，都可能涉及多标记问题。在多标记场景中，一条业务数据可能对应多个标记(也可以称之为类别)，例如客服场景中，用户提出的非标准化问题，对应多个可能的标准问题，可能的多个标准问题可以作为选项反馈给用户，有助于智能客服与用户的有效沟通。这里，用户提出的非标准化问题作为一条业务数据，可能对应的多个标准问题可以作为对应的多个标记(类别)，就是一个多标记业务场景。常规技术中，多标记业务往往可以被转化成多个二分类问题，或者简单的进行排序以阈值截断的方式确定目标类别。然而，这种方式没有充分考虑标记之间的相关性信息。因此，需要一种方案，能够更深层次地利用样本特征信息，来进行更有效的多标记业务。

发明内容

本说明书一个或多个实施例描述的针对业务模型进行数据预处理的方法及装置，以及训练各个业务模型、通过所训练的多个业务模型进行多标记业务处理的方法和装置，可以用于解决背景技术部分提到的一个或多个问题。

根据第一方面，提供了一种针对业务模型进行数据预处理的方法，所述业务模型用于在进行多标记业务处理过程中，针对业务数据在预定的多个类别中的第一类别和第二类别上进行二分类，所述多个类别包含至少三个类别，初始样本集中包括第一数量的初始正样本和第二数量的初始负样本，其中，所述初始样本集中的单个初始样本对应有通过相应业务数据提取的多个初始特征，以及所述多个类别中的至少一个类别标签，所述初始正样本是对应有所述第一类别标签且不对应所述第二类别标签的初始样本，所述初始负样本是对应有所述第二类别标签且不对应所述第一类别标签的初始样本；

所述方法包括：

从所述第一数量的初始正样本或所述第二数量的初始负样本中获取第一初始样本；

针对所述初始样本集中的各个初始样本，分别确定各个初始样本与所述第一初始样本之间的各个相对距离；

根据各个相对距离，检测所述第一候选特征对所述第一数量的初始正样本和第二数量的初始负样本之间的区分性；

基于检测结果，确定是否将所述第一初始样本作为针对所述业务模型重构的特征空间中的基准特征，所述基准特征用于将业务数据映射到所述特征空间中，从而进行业务分类处理。

在一个实施例中，所述单个初始样本与所述第一初始样本之间的相对距离为，所述多个初始特征维度下的欧氏距离。

在一个实施例中，所述第一初始样本对所述第一数量的初始正样本和第二数量的初始负样本之间的区分性通过第一区分指标进行衡量，所述第一区分指标用于量化描述所述第一初始样本对所述第一数量的初始正样本和第二数量的初始负样本的区分程度。

在一个实施例中，所述第一区分指标为，第一数量的初始正样本和第二数量的初始负样本的类间距离与类内距离的比值，其中：所述类间距离为，所述第一数量的初始正样本对应的各个相对距离的平均值，与所述第二数量的初始负样本对应的各个相对距离的平均值之差；

所述类内距离为，所述第一数量的初始正样本的正类内距离和所述第二数量的初始负样本的负类内距离的加权和，所述正类内距离为所述第一数量的初始正样本两两之间的相对距离的平均值，所述负类内距离为所述第二数量的初始正样本两两之间的相对距离的平均值。

在一个实施例中，所述第一区分指标为，所述第一数量的初始正样本和所述第二数量的初始负样本对应的各个相对距离的离散度，所述离散度通过以下方式之一确定：极差、方差、标准差、平均差。

在一个实施例中，所述第一区分指标为，以下两项的加权和：

第一项为第一数量的初始正样本和第二数量的初始负样本的类间距离与类内距离的比值；

第二项为所述第一数量的初始正样本和所述第二数量的初始负样本对应的各个相对距离的离散度。

在一个实施例中，所述基于检测结果，确定是否将所述第一初始样本作为针对所述业务模型重构的特征空间中的基准特征包括：

在所述检测结果包括所述第一区分指标大于预设阈值，所述第一初始样本对所述第一数量的初始正样本和第二数量的初始负样本具有区分性的情况下，确定将所述第一初始样本作为针对所述业务模型重构的特征空间中的第一基准特征。

在一个实施例中，所述第一数量的初始正样本与所述第二数量的初始负样本中的各个初始样本分别对应各个区分指标；所述基于检测结果，确定是否将所述第一初始样本作为针对所述业务模型重构的特征空间中的基准特征包括：

按照各个区分指标由大到小的顺序，从所述第一数量的初始正样本与所述第二数量的初始负样本中选择预定数量或预定比例的初始样本作为针对所述业务模型重构的特征空间中的基准特征；

如果所述第一初始样本属于所选择的预定数量或预定比例的初始样本，则将所述第一初始样本作为针对所述业务模型重构的特征空间中的第一基准特征。

在一个实施例中，在按照各个区分指标由大到小的顺序，从所述第一数量的初始正样本与所述第二数量的初始负样本中选择预定比例的候选特征的情况下，所述方法进一步包括：确定第三数量为第一数量和第二数量中的较小值与所述预定比例的乘积的整数部分；分别选择第三数量的初始正样本和第三数量的初始负样本，作为针对所述业务模型重构的特征空间中的基准特征。

在一个实施例中，所述多标记业务包括对字符、图像、音频中至少一项进行处理的业务。

根据第二方面，提供了一种训练业务模型的方法，所述业务模型用于在多标记业务处理过程中，针对业务数据在预定的多个类别中的第一类别和第二类别上进行分类，初始样本集中包括第一数量的初始正样本和第二数量的初始负样本，其中，所述初始样本集中的单个初始样本对应有通过相应业务数据提取的多个初始特征，以及所述多个类别中的至少一个类别标签，所述初始正样本是对应有所述第一类别标签且不对应所述第二类别标签的初始样本，所述初始负样本是对应有所述第二类别标签且不对应所述第一类别标签的初始样本；

所述方法包括：

针对单个初始正样本，基于单个初始正样本的多个初始特征，确定所述单个初始正样本在针对所述业务模型重构的特征空间中的各个基准特征上的各个特征值，并与所述第一类别标签一起形成单个正样本，其中，各个基准特征按照第一方面所述的针对业务模型进行数据预处理的方法确定；

针对单个初始负样本，基于所述单个初始负样本的多个初始特征，确定所述单个初始负样本在针对所述业务模型重构的特征空间中的各个基准特征上的各个特征值，并与所述第二类别标签一起形成单个负样本；

利用所述第一数量的初始正样本分别对应的各个正样本和所述第二数量的初始负样本分别对应的各个负样本训练选定的模型，得到针对所述第一类别和所述第二类别的业务模型。

在一个实施例中，所述基准特征包括第二基准特征，所述第二基准特征对应第二初始样本，单个初始正样本/单个初始负样本在所述第二基准特征上的特征值为，单个初始正样本/单个初始负样本与所述第二初始样本在所述多个初始特征构成的特征空间的欧式距离。

根据第三方面，提供了一种针对业务数据进行多标记业务处理的方法，所述方法包括：

获取待处理的业务数据；

从所述待处理的业务数据中提取预定的多个初始特征，所述多个初始特征为对应于预定的多个类别的特征；

利用预先训练的多个业务模型，分别基于所提取的各个初始特征为所述待处理的业务数据确定各个分类类别，其中，各个业务模型分别按照第二方面提供的训练业务模型的的方法进行训练，并分别用于针对业务数据在所述多个类别中的两两类别上进行二分类；

根据各个业务模型分别确定的各个分类类别，为所述待处理的业务数据在所述多个类别中确定至少一个目标类别。

在一个实施例中，所述多个类别包括第三类别，所述根据各个业务模型分别对应的各个分类类别，为所述待处理的业务数据在所述多个类别中确定至少一个目标类别包括：

获取所述第三类别在初始样本集的各个初始样本的类别标签中出现的第一先验概率，以及不出现的第二先验概率；

检测与所述第三类别相关的h个业务模型分别确定的h个分类类别中，所述第三类别在初始样本集中出现的条件下，在所述h个分类类别中出现的第一条件概率，以及所述第三类别在初始样本集中不出现的条件下，在所述h个分类类别中不出现的第二条件概率；

基于所述第一条件概率和所述第一先验概率，确定所述h个分类类别中所述第三类别为真的概率，并基于所述第二条件概率和所述第二先验概率，确定在所述h个分类类别中所述第三类别非真的概率；

在所述第三类别为真的概率大于所述第三类别非真的概率的情况下，确定所述待处理的业务数据对应的目标类别包括所述第三类别。

在一个实施例中，所述基于所述第一条件概率和所述第一先验概率，确定所述h个分类类别中所述第三类别为真的概率包括：

将所述第一条件概率和所述第一先验概率的乘积作为所述第三类别为真的概率；

所述基于所述第二条件概率和所述第二先验概率，确定所述h个分类类别中所述第三类别非真的概率包括：

将所述第二条件概率和所述第二先验概率的乘积作为所述第三类别非真的概率。

在一个实施例中，所述第一条件概率为，对应类别标签个数与所述多个分类类别中第三类别出现的次数一致的训练样本数，与以下项的商：包含第三类别的训练样本中，各个类别标签个数分别对应的训练样本数之和。

在一个实施例中，所述第二条件概率为，对应类别个数与各个分类类别中不是第三类别的分类类别数量一致的训练样本数，与以下项的商：不包含第三类别的训练样本中，各个类别标签个数分别对应的训练样本数之和。

在一个实施例中，所述多个业务模型包括模型s，模型s对应于类别i和类别j，类别i对应r个正特征，属性类别j对应t个负特征，单个正特征/负特征通过相应样本在各个初始特征上的相对距离进行表示；

所述利用预先训练的多个业务模型，分别基于所提取的各个初始特征为所述待处理的业务数据确定各个分类类别包括：

利用所述待处理的业务数据的各个初始特征分别确定所述待处理的业务数据在r个正特征、t个负特征上的各个特征值，其中，所述待处理的业务数据在单个正特征/负特征上的特征值为所述待处理的业务数据与所述单个正特征/负特征对应的单个初始样本在各个初始特征描绘的特征空间中的相对距离；

将所述待处理的业务数据在r个正特征、t个负特征上的相对距离输入模型s，以供模型s输出所述待处理的业务数据在类别i和类别j之间的分类类别。

根据第四方面，提供了一种针对业务模型进行数据预处理的装置，所述业务模型用于在多标记业务处理过程中，针对业务数据在预定的多个类别中的第一类别和第二类别上进行二分类，所述多个类别包含至少三个类别，初始样本集中包括第一数量的初始正样本和第二数量的初始负样本，其中，所述初始样本集中的单个初始样本对应有通过相应业务数据提取的多个初始特征，以及所述多个类别中的至少一个类别标签，所述初始正样本是对应有所述第一类别标签且不对应所述第二类别标签的初始样本，所述初始负样本是对应有所述第二类别标签且不对应所述第一类别标签的初始样本；

所述装置包括：

第一确定单元，配置为从所述第一数量的初始正样本或所述第二数量的初始负样本中获取第一初始样本；

第二确定单元，配置为针对所述初始样本集中的各个初始样本，分别确定各个初始样本与所述第一初始样本之间的各个相对距离；

检测单元，配置为根据各个相对距离，检测所述第一初始样本对所述第一数量的初始正样本和第二数量的初始负样本之间的区分性；

选择单元，配置为基于检测结果，确定是否将所述第一初始样本作为针对所述业务模型重构的特征空间中的基准特征，所述基准特征用于将业务数据映射到所述重构的特征空间中，从而进行业务分类处理。

根据第五方面，提供了一种训练业务模型的装置，所述业务模型用于在多标记业务处理过程中，针对业务数据在预定的多个类别中的第一类别和第二类别上进行二分类，初始样本集中包括第一数量的初始正样本和第二数量的初始负样本，其中，所述初始样本集中的单个初始样本对应有通过相应业务数据提取的多个初始特征，以及所述多个类别中的至少一个类别标签，所述初始正样本是对应有所述第一类别标签且不对应所述第二类别标签的初始样本，所述初始负样本是对应有所述第二类别标签且不对应所述第一类别标签的初始样本；

所述装置包括：

提取单元，配置为针对单个初始正样本，基于所述单个初始正样本的多个初始特征，确定所述单个初始正样本在针对所述业务模型重构的特征空间中的各个基准特征上的各个特征值，并与所述第一类别标签一起形成单个正样本，其中，各个基准特征由第四方面提供的装置确定；以及

针对单个初始负样本，基于所述单个初始负样本的多个初始特征，确定所述单个初始负样本在各个基准特征上的各个特征值，并与所述第二类别标签一起形成单个负样本；

训练单元，配置为利用与所述第一数量的初始正样本对应的各个正样本和与所述第二数量的初始负样本对应的各个负样本训练选定的模型，得到针对所述第一类别和所述第二类别的业务模型。

根据第六方面，提供了一种针对业务数据进行多标记业务处理的装置，所述装置包括：

获取单元，配置为获取待处理的业务数据；

提取单元，配置为从所述待处理的业务数据中提取预定的多个初始特征；

预测单元，配置为利用预先训练的多个业务模型，分别基于所提取的各个初始特征为所述待处理的业务数据确定各个分类类别，其中，各个业务模型分别利用第五方面提供的装置进行训练，并分别用于针对业务数据在所述多个类别中的两量类别上进行二分类；

确定单元，配置为根据各个业务模型分别确定的各个分类类别，为所述待处理的业务数据在所述多个类别中确定至少一个目标类别。

根据第七方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述第一方面、第二方面或第三方面的方法。

根据第八方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述第一方面、第二方面或第三方面的方法。

本说明书实施例提供的针对业务模型进行数据预处理的方法，可以从训练样本中筛选出与业务模型相关的初始样本，并利用针对多个类别提取的初始特征对这些初始样本进行特征重构，充分挖掘特征与特征之间、特征与属性类别之间的相关性，从而重新确定针对当前业务模型而言，更加准确有效的特征。当重构特征和正负样本本来的类别标签组合构成新的样本时，可以训练出更加有效的业务模型。进一步地，在多标记业务处理过程中，可以对业务数据在初始特征上统一提取特征值，保持了初始特征的一致性，而在各个业务模型单独处理从业务数据提取的各个初始特征上的值时，再对初始特征进行转换，得到在针对相应业务模型上的重构特征上的各个特征值，从而由各个业务模型给出分类类别，多个分类类别共同投票决定业务数据分类到各个类别的可能性，提供更有效的多标记业务处理结果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出本说明书实施例的一个实施场景示意图；

图2示出根据一个实施例的为业务模型进行数据预处理的流程示意图；

图3示出根据一个实施例的针对业务数据进行多标记业务处理的流程示意图；

图4示出根据一个实施例的针对业务模型进行数据与处理的装置的示意性框图；

图5示出根据一个实施例的训练业务模型的装置的示意性框图；

图6示出根据一个实施例的针对业务数据进行多标记业务处理的装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

首先，结合图1示出一个具体实施场景进行说明。如图1所示，示出一个客服实施场景。在该实施场景中，多个用户可以通过终端应用与服务器进行交互。服务器端可以设置有智能客服平台。智能客服平台通过预先训练的多标记业务处理模型，多标记业务处理模型用于根据用户问题预测用户可能的问题意图。用户可以通过终端应用的客服通道向客服平台提出问题，客服平台通过多标记业务处理模型预测用户问题对应的分类类别，每个分类类别可以对应一个标准问题，服务器可以将客服平台预测的分类类别对应的标准问题反馈给用户，以供用户根据真实意图选择相应问题。

其中，在多标记业务处理模型训练过程中，需要大量预先标注的客服语料作为训练样本，例如一个训练样本对应一次用户客服提问，以及预先标注的多个分类类别(标准问题)。通常，可以将多标记业务模型拆分为多个用于两两类别二分类的业务模型，例如对应类别1、类别2、类别3的多标记业务处理模型，可以拆分为分别对应(类别1、类别2)、(类别2、类别3)、(类别1、类别3)的3个用于二分类的业务模型。在进行数据预测时，通过各个二分类的业务模型分别对业务数据进行二选一的分类，并根据多个二分类的业务模型的投票结果确定业务数据在多个类别中的一个或多个类别标记(目标类别)。

在本说明书的技术构思下，在用于二分类的业务模型的训练过程中，可以根据相应的类别对，对样本进行特征重构，以充分挖掘各个类别之间的关联性，针对性地重构样本特征，使得模型更加有效。在使用多标记业务处理模型对业务数据进行标记过程中，可以对业务数据统一提取针对多个类别的初始特征，之后，各个用于二分类的业务模型分别基于这些初始特征针对性提取新的特征，并对业务数据确定二选一标记的分类类别。对每个类别来说，根据与其相关的各个二分类的业务模型的分类类别投票确定是否为业务数据标记该类别。在可选的实施例中，可以根据贝叶斯概率原理为业务数据进行标记投票，提高标注准确度。

值得说明的是，图1中示出的用户、服务器的数量仅为示例，实际应用中，根据实际需求设置。客服平台可以是设置于服务器的计算平台，也可以是设置于与服务器连接的专用服务器的计算平台，在此不做限定。

图1虽然示出了客服业务场景下的多标记业务处理场景，在该场景中，所标记业务是对文字进行处理的业务。通常，多标记业务可以是字符、图像、音频中至少一项进行处理的业务。其中，文字可以包含于字符，类似的字符场景例如还包括：

为单个目标对象(如用户)添加多个属性标签(如性格标签、信用标签等)中的至少一个属性标签的业务，此时，目标对象的画像数据可以作为业务数据，各个候选属性标签分别对应各个标记；

针对当前争议问题确定多个候选解决方案中的至少一个解决方案的业务，此时，当前争议问题的描述信息可以作为业务数据，各个候选解决方案对应各个标记，在一个具体示例中，当前争议问题例如是商家发错商品，至少一个解决方案例如可以包括：退货退款、商家退差价、消费者补足差价、仅退款等等，当前争议问题的描述信息可以包括消费者所拍商品及其功能价格等、错发商品及其功能价格等。

可以理解，语音识别是较通用的技术，因此，上述场景中的各种字符也可以是通过对音频数据的识别确定的。另外，还有一些场景下，多标记业务也可能是对图片、视频等图像信息进行处理的业务，例如为受损车辆确定多种候选损伤结果中的至少一个损伤结果的业务，此时，受损车辆的图像数据可以作为业务数据，各个候选损伤结果对应各个标记。

在其他业务场景下，多标记处理业务还可能是对其他数据的处理业务，在此不再一一列举。下面详细描述为用于多标记业务处理中的二分类的业务进行数据预处理，重新确定基准特征的具体过程。其中的多标记业务可以包括对字符、图像、音频等等中至少一种数据进行处理的业务。

图2示出根据一个实施例的针对业务模型进行数据预处理的方法流程图。该方法的执行主体可以是任何具有计算、处理能力的系统、设备、装置、平台或服务器。例如为图1示出的客服平台等。图2示出的方法基于多个初始样本进行，其中，每个初始样本对应多个初始特征以及预设多个类别中的若干类别。作为示例，一个初始样本为[x₁，x₂，…x_n，y₂，y_m]，其中，x₁，x₂，…x_n为n个初始特征，y₂，y_m为2个类别标签。对于初始样本对应的多个类别中的任意两个类别，可以对其进行数据预处理，利用多个初始样本为其重构特征，以得到更加有效的特征训练相应的用于二分类的业务模型。

可以理解，多标记业务处理模型的训练样本中，所有样本的类别标签归纳后不少于3个时，才有必要将其拆分为多个用于二分类的业务模型。也就是说，每个训练样本的类别标签都是从这至少3个类别中选择的一个或多个类别。其中，假设所有样本的类别标签有m个，则两两组合的可能结果为m(m-1)/2种，相应的用于二分类的业务模型有m(m-1)/2个。

下面以针对预定的多个类别的多分类业务处理模型中，针对业务数据在多个类别中的第一类别和第二类别上进行二分类的业务模型为例，介绍针对业务模型进行数据预处理的方法。

首先需要说明的是，对于多分类业务，通常具有多个训练样本，这些训练样本也就是进行多分类模型训练的初始样本，它们例如可以是诸如[x₁₁，x₁₂，…x_1n，y₁，y_m]、[x₂₁，x₂₂，…x_2n，y₂，y₄，y₅]之类的形式。其中：x表示特征，例如，在客服场景中，初始特征是用户问题分词后的各个词汇分别对应的各个词向量等。x的第一个下标表示当前训练样本的序号，第二个下标表示特征序号；y表示类别标签，其下标表示类别标签的序号，例如，在客服场景中，类别可以是标准问题，一个类别也可以称为一个标记。可以看出，一个训练样本可以对应多个类别标签。为了训练用于二分类的业务模型，首先需要从初始样本集中选择出与第一类别标签和第二类别标签相关的训练样本。

通常，与第一类别标签和第二类别标签相关的训练样本可以仅与第一类别相对应，也可以仅与第二类别相对应，还可以同时与第一类别标签和第二类别标签对应。为了对第一类别和第二类别进行有效区分，选择训练样本中与第一类别对应的样本作为初始正样本，与第二类别相对应的样本作为初始正样本。可以理解，初始正样本可以是对应第一类别且不对应第二类别的初始样本，初始负样本是对应第二类别且不对应第一类别的初始样本。举例而言，对于类别对y₁、y₂，初始正样本具有类别标签y₁但没有类别标签y₂，初始负样本包括类别标签y₂但不包括类别标签y₁。可选地，初始正、负样本数量均为预定数量(如200例)，也可以按实际筛选出的样本数量(如初始正样本200例，初始负样本250例)。可以将初始正样本(对应第一属性类别)的数量记为第一数量，将负样本(对应第二属性类别)的数量记为第二数量。初始正、负样本数量均为预定数量也可以看作第一数量和第二数量相等的特例。

虽然从样本标签来说，可以明确区分第一类别和第二类别，然而，由于初始特征是针对多个类别提取的特征，这些特征有的凸显出第一类别或第二类别，有的凸显的是其他类别。凸显其他类别的特征在训练用于二分类的业务模型时，不能起到显著作用，反而可能增加数据运算的复杂度，影响模型的准确性。因此，可以对初始正样本和初始负样本重新构建有效特征，和初始类别标签一起重新构建正样本、负样本。

如图2所示，为业务模型进行数据预处理的方法包括以下步骤：步骤201，从第一数量的初始正样本或第二数量的初始负样本中获取第一初始样本；步骤202，针对初始样本集中的各个初始样本，分别依确定各个初始样本与第一初始样本之间的各个相对距离；步骤203，根据各个相对距离，检测第一初始样本对第一数量的初始正样本和第二数量的初始负样本之间的区分性；步骤204，基于检测结果，确定是否将第一初始样本作为针对用于在第一类别和第二类别上进行二分类的业务模型重构的特征空间中的基准特征，基准特征用于将业务数据映射到重构的特征空间中，从而进行业务分类处理。

首先，步骤201，从第一数量的初始正样本或第二数量的初始负样本中获取第一初始样本。其中，第一初始样本为第一数量的初始正样本或第二数量的初始负样本中的任意一个初始样本。换句话说，第一初始样本可以是初始正样本，也可以是初始负样本。

在利用多标记业务处理模型多标记业务处理时，可以将初始样本在多维初始特征上的值构成向量，例如[x₁，x₂，…x_n]。这些初始特征可以涵盖各个标记的特点。此时，各个初始特征还可以看作由各个初始正样本和初始负样本组成的特征空间中的一个维度方向。

可以理解，对于标注好的初始样本而言，具有较高的置信度，也就是由较好的参考价值。如果两个初始样本都具有某个类别标签，那么他们在特征空间中至少某些方向上具有近似性。在本说明书实施例的架构下，可以将置信度较高的初始正样本和初始负样本作为参考，比较各个初始样本与初始正样本、初始负样本的接近程度。这就相当于将初始正样本和初始负样本看作针对第一类别和第二类别的候选特征空间，这样，每一个初始正样本或初始负样本，都可以看作一个候选特征。进一步地，对于单个初始样本(训练样本集中的各个训练样本)，在各个候选特征上，都可以投影出相应的特征值。

针对第一初始样本而言，通过步骤202，对初始样本集中的各个初始样本，分别确定各个初始样本与第一初始样本之间的各个相对距离。这里，一个初始样本与第一初始样本的相对距离，可以看作为单个初始样本与在第一初始样本对应的第一候选特征维度上的特征值。

每个初始样本可以看作初始特征空间的点。为了构造可以将正、负样本分离的特征，可以将一个初始样本看作通过上述的初始正样本、初始负样本描述的点。换句话说，将各个初始样本在多维初始特征空间内的点，转换到由各个初始正样本和初始负样本作为候选特征组成的特征空间的点。

一个初始样本可以看作由其在各个初始特征上的特征值表示的一个点，该点在第一初始样本维度上的投影值，就可以作为其在第一候选特征维度上的特征值。在本说明书的实施架构下，一个初始样本在第一候选特征维度上的特征值，可以由该初始样本与第一初始样本在各个初始特征中的相对距离表示。该相对距离在各个初始特征构成的特征空间和在初始正样本、初始负样本构成的特征空间可以是一致的。在一个实施例中，可以通过诸如欧氏距离之类的方式确定单个初始样本与第一初始样本的相对距离。以欧氏距离为例，样本1和样本2的相对距离可以为：

其中，x₁、x₂……x_n分别表示n(如取100)个初始特征，下标末位的1、2分别对应样本1和样本2，即，x₁₁、x₂₁、……x_n1是样本1在各个初始特征维度的特征值，x₁₁、x₂₁、……x_n1是样本2在各个初始维度的特征值。d₁₂是样本1和样本2的相对距离，假设样本2为第一初始样本，则d₁₂表示样本1在转换特征空间后在样本2对应的特征维度上的投影，这里也可以称为相对距离或特征值。

这样，针对每个初始样本，对应各个初始正、负样本都可以确定出其相应的相对距离，从而可以确定第一数量+第二数量个相对距离。假如第一数量为200，第二数量为250，则候选特征维度有450维，每个初始样本相对于450个候选特征维度，可以有450个相对距离(特征值)。根据各个初始样本在这450个候选特征维度的特征值，可以针对这450维候选特征进行筛选，从中筛选出能够有效区分第一类别和第二类别的特征作为用于二分类的业务模型的重构的基准特征。

接着，在步骤203中，根据各个相对距离，检测第一初始样本对第一数量的初始正样本和第二数量的初始负样本之间的区分性。可以理解，为了使得正负样本能够更有效地区分开，新的特征需要保证类内距离尽可能小，同时，类间距离足够大。应当理解，这里说的类，可以是按照样本类别区分的类，简单地说，正样本可以为一类，负样本可以为一类。对于第一初始样本对应的候选特征而言，是否对第一数量的初始正样本和第二数量的初始负样本之间具有较好的区分性，直接影响其是否可以有效区分第一类别和第二类别。

为了获取更准确的结果，可以用区分指标作为正、负样本区分度的量化表示，衡量各个候选特征对第一数量的初始正样本和第二数量的初始负样本之间的区分性。第一初始样本对应的区分指标记为第一区分指标。在一个实施例中，在第一区分指标大于预设阈值的情况下，可以确定相应候选特征对第一数量的初始正样本和第二数量的初始负样本具有区分性。在另一个实施例中，可以将各个候选特征的第一区分指标由大到小进行排序，并确定前预定数量(如40维)的候选特征对第一数量的初始正样本和第二数量的初始负样本具有区分性。

根据一个可能的设计，可以用fisher线性判别法作为确定重构的特征空间的基准特征的标准。此时，第一区分指标可以为，第一数量的初始正样本与第二数量的初始负样本在第一初始样本对应的候选特征上的fisher比值。具体地，第一初始样本对应的候选特征上的fisher比值可以是，相对于第一初始样本，第一数量的初始正样本和第二数量的初始负样本的类间距离与初始正样本、初始负样本的类内距离的比值。可以理解，较大的类间距离和较小的类内距离，可以更好地分离样本，因此，fisher比值越大的候选特征越有利于区分第一类别和第二类别。

在一个可选的实现方式中，上述类间距离可以是，相对于第一初始样本，各个初始正样本分别对应的各个相对距离的平均值，与各个初始负样本分别对应的各个相对距离的平均值之间的差(可以用取差的绝对值)。初始正样本的类内距离可以是两两初始正样本的相对距离的平均值。例如，200个初始正样本，两两组合有200×(200-1)/2＝19900个组合结果，分别对应19900个相对距离v₁、v₂、…v₁₉₉₀₀，这200个初始正样本的类内距离可以为(v₁+v₂+…+v₁₉₉₀₀)/19900。初始负样本的类内距离确定方式与正样本的类内距离相似，在此不再赘述。第一数量的初始正样本的类内距离可以称为正类内距离，第二数量的初始负样本的类内距离可以称为负类内距离，其中，正类内距离和负类内距离仅为描述方便，名称不作为对技术方案本身的限定。可选地，上述的fisher比值中的类内距离可以是正类内距离和负类内距离的加权和。其中，当正类内距离与负类内距离的权重都为0.5时，相当于对正类内距离与负类内距离求平均。根据一个实施例，正/负样本的类内距离的权重可以与样本数量负相关，例如正样本的类内距离的权重为：负样本数量/(正样本数量与负样本数量的平方和)的平方根。

在另一个可选的实现方式中，可以对初始正/负样本在各个候选特征(包括第一初始样本)上分别的各个特征值构成的向量求初始正/负样本的平均向量，平均向量中的每个元素分别对应到相应维度的候选特征对应的类间距离。对于与第一初始样本对应的候选特征，初始正样本的平均向量中和第一初始样本对应的元素与初始负样本的平均向量中和第一初始样本对应的元素的差，可以作为与第一初始样本对应的类间距离。在一个实施例中，初始正样本的类内距离可以与初始正样本的平均向量中与第一初始样本对应的元素的绝对值正相关，即该元素的绝对值越接近0，初始正样本的类内距离越小。

根据另一个可能的设计，第一区分指标还可以为第一数量的初始正样本和第二数量的初始负样本对应的各个相对距离的离散度，即离散程度的量化值。其中，离散程度指标是对各个样本在某一维特征上的取值的离散程度的量化描述。可以理解，如果一个候选特征，各个样本在其上的取值都一致是0或都一致是1，则其离散程度极低，因此，其对于区分正、负样本的意义不大。也就是说，一个候选特征上样本的特征值离散度越大，越适合作为分类特征。可选地，第一初始样本对应的候选特征的离散度，可以是初始正样本、初始负样本与第一初始样本的相对距离的方差、极差、标准差、平均差等等。以方差、极差、标准差、平均差中的任一种为例。其值越大，说明离样本在相应候选特征上的散程度越高。

根据在一个可能的设计，第一区分指标还可以是前述的fisher比值与离散度的加权和，此时，fisher比值与离散程度指标的权重可以通过人工经验设置。当fisher比值与离散程度指标的权重均为0.5时，相当于对其求平均值。加权结果越大，作为相应候选特征的初始样本越有利于将初始正样本、初始负样本在第一类别和第二类别上区分开来。

根据其他的设计，第一区分指标还可以是其他合理的参数，在此不再赘述。

接着，在步骤204，基于检测结果，确定是否将第一初始样本作为针对上述业务模型重构的特征空间中的基准特征。可以理解，基准特征可以是用于将业务数据映射到重构的特征空间中，从而进行业务分类处理的特征。如果第一初始样本对于第一数量的初始正样本和第二数量的初始负样本具有区分性，则其适合作为重构的特征空间中的基准特征。

在一个实施例中，检测结果包括第一区分指标大于预设阈值，第一初始样本对第一数量的初始正样本和第二数量的初始负样本具有区分性的情况下，可以确定将第一初始样本作为针对上述业务模型重构的特征空间中的第一基准特征(这里的第一用于与前面的第一初始样本对应)。

在另一个实施例中，可以先确定各个作为候选特征的初始样本分别对应的各个区分指标，按照各个区分指标由大到小的顺序，从各个作为候选特征的初始样本中选择预定数量或预定比例的候选特征，作为重构特征空间的基准特征。这样，如果第一初始样本是被选择出的预定数量或预定比例的初始样本之一，则被确认为上述模型的基准特征。这里，作为候选特征的初始阉割版是第一数量的初始正样本和第二数量的初始负样本。

可以按区分指标由大到小的顺序选择预定维数(如40维)的候选特征作为重构特征空间的基准特征，还可以按照区分指标由大到小的顺序，选择一定维数比例(如0.1，即从450维中选择45维)的候选特征作为重构特征空间的基准特征。在可选的实现方式中，可以选择相同维数的正特征和负特征作为基准特征。此时，可以将正特征和负特征的维数记为第三数量。其中，正特征是与初始正样本对应的候选特征，负特征是与初始负样本对应的候选特征。此时，假设按照预定比例(如10％)可以选择出第四数量如20维的正特征和第五数量如25维的负特征，则第三数量为第四数量和第五数量中的较小值(如第四数量20维)。特别地，如果初始正样本和初始负样本和预定比例的乘积包含小数，则第四数量和第五数量可以取相应乘积的整数部分。例如，初始正样本为299例，预定比例为0.1，则第四数量可以为29。

通过以上过程，可以为上述用于第一类别和第二类别上进行二分类的业务模型选择出多个正特征和多个负特征，正特征用于体现第一类别的特点，负特征用于体现第二类别的特点。可以理解，这里的第一类别和第二类别为多分类业务中的任意两个不同的类别，第一和第二不对具体类别构成限定。

进一步地，可以针对各个初始正样本和各个初始负样本，分别在各个选择出的各个基准特征上提取相应的特征值，并和其原来的类别标签一起构成新的正样本或负样本。

作为示例，假设对应第一类别的初始正样本为200例，对应第二类别的初始负样本为250例，最终选择出的正特征和负特征各有20例，总的分类特征为40例。则对于200例初始正样本中的单个初始正样本，按照选择出的40例基准特征提取40个相对距离作为特征值，即该单个初始正样本与选择出的20例初始正样本和20例负样本分别的相对距离，这40个相对距离和该单个初始正样本对应的类别标签“第一类别”标签一起构成一个新的正样本。同样，对于单个负样本，按照选择出的40例分类特征提取40个相对距离作为特征值，和“第二类别”标签一起构成一个新的负样本。这样，200例初始正样本被构造成200例正样本，250例负样本可以被构造成250例负样本。由以上过程可知，这40例基准特征中的任一个基准特征，对应的初始样本中的多个初始特征表示例如为[x₁₁，x₁₂，…x_1n]，则该初始特征表示可以作为该基准特征的空间表示。一条业务数据或一个样本在该基准特征上的特征值可以为，该业务数据或该样本的多个初始特征[x_i1，x_i2，…x_in]与该分类特征的空间表示[x₁₁，x₁₂，…x_1n]之间的相对距离，如欧式距离。

进一步地，将各个正样本和各个负样本依次输入选定的模型，可以训练得到针对第一类别和第二类别进行二分类的业务模型。

假设多标记业务中的类别有m个(如6个)，那么对于将这些属性类别两两组合，可以得到m(m-1)/2个组合，也就是说，可以训练m(m-1)/2个用于二分类的业务模型。其中，每个类别标签对应的业务模型可以由m-1个。这m(m-1)/2个二分类模型可以独立存在，也可以被组合成一个多标记业务处理模型，用于处理多标记业务。

下面详细描述针对待处理的业务数据进行多标记业务处理的方法。其中的多标记业务可以包括对字符、图像、音频等等中至少一种数据进行处理的业务。可以理解，多标记业务中的多个类别(标记)通常可以是相互独立的。例如在车辆定损场景中，一个标记是车辆损伤部件的描述、一个标记是车辆损伤程度的描述，等等。

如图3所示，示出了一个针对业务数据进行多标记业务处理的方法，该方法包括以下步骤：步骤301，获取待处理的业务数据；步骤302，从待处理的业务数据中提取在预定的多个初始特征，多个初始特征为对应于预定的多个类别的特征；步骤303，利用预先训练的多个业务模型，分别基于所提取的各个初始特征为待处理的业务数据确定各个分类类别，其中，各个业务模型分别按照前述的方法进行训练，并分别用于针对业务数据在多个类别中的两量类别上进行二分类；步骤304，根据各个业务模型分别确定的各个分类类别，为待处理的业务数据在多个类别中确定至少一个目标类别。

首先，在步骤301，获取待处理的业务数据。这里，待处理的业务数据根据具体场景确定，例如在问答场景中，待处理的业务数据可能是用户发起的一次提问，例如“借款逾期怎么办”等等。在用户评估场景中，待处理的业务数据可以是用户的历史行为信息、历史位置信息等等。在车辆定损场景中，待处理的业务数据可以是受损车辆的现场图像等。

接着，在步骤302，从待处理的业务数据中提取在预定的多个初始特征。初始特征也是和业务场景及多标记业务涉及的多个类别紧密相关的数据。初始特征可以是倾向于多标记业务中的任何一个标记的特征。例如，在问答场景中，多个类别为多个标准问题，那么初始特征可能倾向于用户问题的语义，其可以是用户问题分词后得到的词汇或词向量。在用户评估场景中，如果多个类别包括对用户信用度、用户还款能力，那么初始特征可以是用户历史消费频次、历史消费付款途径、历史借贷金额、历史借贷还款守约情况等等。而从业务数据中取到的在各个特征上取到的具体值，就是业务数据在各个初始特征上的值。例如，用户历史消费频次为5次/月，那么5就可以作为业务数据在初始特征“用户历史消费频次”上的值。

然后，通过步骤303，利用预先训练的多个业务模型，分别基于所提取的待处理的业务数据的各个初始特征，为待处理的业务数据确定各个分类类别。其中，各个业务模型分别按照前述的，通过重构的特征空间中的基准特征重新确定正、负样本，进行训练，并分别用于针对业务数据在多个类别中的两两类别上进行二分类。

如前所述，假设多个类别数量为m，则可以依照前述方法训练m(m-1)/2个用于二分类的业务模型。每个业务模型可以通过业务数据在各个初始特征上的值为业务数据预测一个分类类别。

下面以这多个二分类的业务模型中的模型s(s为1到m(m-1)/2之间的正整数)为例，说明通过业务模型为业务数据确定分类类别的方法。

假设模型s对应于类别i和类别j。类别i对应r个正特征，也就是对应r个具有类别i的初始样本，这r个初始样本中每个初始样本在各个初始特征上的取值，构成了该初始样本对应的正特征的表示。同理，类别j对应t个负特征，对应t个具有类别j的初始样本，这t个初始样本中每个初始样本在各个初始特征上的取值，构成了该初始样本对应的负特征的表示。

在用该模型s预测待处理的业务数据的类别时，可以先利用待处理的业务数据在各个初始特征的值分别确定业务数据在r个正特征、t个负特征上的特征值。其中，业务数据在单个正特征/负特征上的特征值为业务数据与单个正特征/负特征的相对距离。这里，相对距离可以理解为：把单个正特征/负特征看作通过多个初始特征表示的点，业务数据在各个初始特征的值也看作一个点，则待处理的业务数据在单个正特征/负特征维度的特征值可以用这两个点的相对距离表示。这两个点的坐标分别是各自在各个初始特征的值，他们的相对距离可以通过欧氏距离表示。这样，对于业务数据，就可以提取到在模型s上的r个正特征的特征值，以及t个负特征的特征值。接着，将业务数据在r个正特征、t个负特征上的特征值输入模型s，则模型s可以输出业务数据倾向于类别i或类别j的分类类别(如类别i)。

这样，对m(m-1)/2个二分类的业务模型，分别可以得到一个分类类别结果。以m＝3为例，根据一个具体例子，可以得到如表1所示的结果：

表1

其中，表1，分类结果中的1表示为对应的分类类别。步骤303类似于利用各个二分类的业务模型对各个类别进行投票。通过步骤303，对待处理的业务数据提取了一次特征，即各个初始特征上的值，各个二分类的业务模型利用相同的所提取的初始特征再分别进行二次特征提取，并给出最终的处理结果，充分考虑了特征之间、特征与标签之间的关联性，做出的分类结果更加准确。

进一步地，通过步骤304，根据各个业务模型分别确定的各个分类类别，为待处理的业务数据在上述多个类别中确定至少一个目标类别。步骤304相当于对步骤303中的投票结果进行统计。以下以第三类别为例，描述这种对投票结果的处理过程。这里，第三类别可以是多个类别中的任一类别，“第三类别”仅和前述的第一类别、第二类别进行名称上的区分，是为了描述的便利，并不对类别本身构成限定。第三类别也可以是第一类别和第二类别中的任一类别。

在一个可选的实现方式中，对于第三类别，可以根据其在m(m-1)/2个二分类的业务模型的在各个分类结果中出现的比例，确定业务数据是否对应到该第三类别。这里，第三类别在分类结果的各个分类类别中出现的比例例如是，第三类别的出现次数/预测结果个数。预测结果个数即业务模型的个数。第三类别在分类结果的各个分类类别中出现的比例例如还可以是，第三类别的出现次数/对应有第三类别的业务模型的个数。当以上比例大于设定的阈值(如0.5、0.8等)时，确定业务数据对应到该第三类别，否则，确定业务数据不对应到该第三类别。参考表1所示，假如第三类别为表1中的类别1，则第三类别的出现次数/预测结果个数＝2/3，第三类别的出现次数/对应有第三类别的业务模型的个数＝2/2(只有模型1和模型2两个模型对应有类别1)。

在另一个可选的实现方式中，当前的第三类别在分类结果的各个分类类别中的出现次数下，如果第三类别存在(即待处理的业务数据对应有第三类别)的概率大于第三类别不存在(即待处理的业务数据不对应第三类别)的概率，则确定业务数据对应有第三类别。其中，第三类别存在的概率以及第三类别不存在的概率均可以通过贝叶斯原理来确定。

贝叶斯原理即，对于随机事件A和B，其中条件概率P(A|B)是在B发生的情况下A发生的可能性，假设事件B发生的先验概率为P(B)，则事件A发生的概率可以为：P(A)＝P(B)P(A|B)。具体到第三类别，假设多标记业务中的类别的数量为m，二分类的业务模型的个数为q＝m(m-1)/2，对应于第三类别的业务模型数量为h＝m-1，各个分类结果为第三类别的个数为C_u，1≤C_u≤m-1，且C_u为正整数。H_u表示针对待处理的业务数据，第三类别为真的事件，～H_u表示第三类别非真的事件，则第三类别为真(即业务数据真实对应第三类别)的概率为P(H_u|C_u)，第三类别非真的概率为P(～H_u|C_u)。如果下列等式成立，则业务数据对应有第三类别：

P(H_u|C_u)>P(～H_u|C_u)。

根据贝叶斯原理，有：

P(H_u|C_u)＝P(H_u)·P(C_u|H_u)

P(～H_u|C_u)＝P(～H_u)·P(C_u|～H_u)

其中，P(H_u)为第三类别在训练样本中的第一先验概率，P(C_u|H_u)为第三类别存在的条件下，各个预测结果中出现第三类别的次数为C_u的第一条件概率。同理，P(～H_u)为第三类别不在训练样本中的第二先验概率，P(C_u|～H_u)为第三属性类别不出现的条件下，各个预测结果中出现第三类别的次数为C_u的第二条件概率。

通常，先验概率可以是相对于全体训练样本而言的。在一个实施例中，第一先验概率P(H_u)为，对应有第三类别标签的训练样本数量与全部训练样本数量的比值。作为示例，如果训练样本为5000例，如果出现第三标签的训练样本(初始样本)为200例，则第三类别标签对应的第一先验概率可以为，200/5000＝4％。反之，第二先验概率P(～H_u)为，未对应第三类别标签的训练样本数量与全部训练样本数量的比值。例如上述例子中未出现第三标签的训练样本为5000-200例，则第三类别标签对应的第一先验概率可以为，(5000-200)/5000＝96％。通常，P(～H_u)可以通过1-P(H_u)来确定。

根据前面的公式可知，如果训练样本中全部包含第三类别标签，则P(～H_u)可能为0，如果训练样本中全部不包含第三类别标签，则可能为0。为了避免这种情况，在一些实施例中，还可以在确定先验概率时，在分子和分母上分别加上一个较小的值(例如小于训练样本数的万分之一，或者设定小于阈值如5的数)，当训练样本的数量较多时，该较小的值对先验概率的影响可以忽略不计，但在极端情况下，可以避免分子或分母为0的情况。即：

P(～H_u)＝1-P(H_u)

其中，Δ₁和Δ₂是两个较小的随机数，Δ₁≤Δ₂，例如，Δ₁＝1，Δ₂＝2。M为属性类别的数量，n₁为对应第三标签的训练样本数量，n为总训练样本数量。

再看条件概率，第一条件概率P(C_u|H_u)表示在训练样本中包含第三属性类别的条件下，各个预测结果中取C_u个第三类别时，第三类别为真的概率。

对于第三属性类别而言，将在训练样本中包含第三类别的训练样本进行统计，对于包含第三类别的训练样本中，共对应1个类别标签的样本数记为p₁，对应1个类别标签的样本数记为p₂，以此类推，对应m个(类别总数量)类别标签的样本数记为p_m，则第一条件概率为：

/>

其中，p_k＝C_u，表示对应类别个数与预测结果中第三类别出现的次数一致。可选地，为了避免分子或分母为0，还可以在分子和分母上添加一个较小的数，例如：

其中，Δ₁和Δ₂是两个较小的随机数，Δ₁≤Δ₂，例如，Δ₁＝1，Δ₂＝m。

同理，将在训练样本中不包含第三类别的训练样本进行统计，对于不包含第三类别的训练样本中，对应1个类别标签的样本数记为p＇₁，对应2个类别标签的样本数记为p＇₂，以此类推，对应m个(类别总数量)类别标签的样本数记为p＇_m，则第二条件概率为：

其中，p′_k＝q-C_u，表示对应类别标签的样本数与预测结果中不是第三类别的次数一致，p′_k与p_k的和值可以为q。可选地，为了避免分子或分母为0，还可以在分子和分母上分别添加一个较小的数，例如：

Δ₁和Δ₂的意义同上，在此不再赘述。

进一步地，根据以下公式，可以确定各个预测结果中预测第三类别为真的概率：

P(H_u|C_u)＝P(H_u)·P(C_u|H_u)

以及第三类别非真的概率：

P(～H_u|C_u)＝P(～H_u)·P(C_u|～H_u)

本领域技术人员可以理解，这种通过贝叶斯原理确定后验概率的方式，可以基于统计的做法在最大程度上减少模型的耦合或者泛化情况。

值得说明的是，对于待处理业务数据，针对各个类别都可以进行与上述的第三类别一致的检测，确定其是否对应有相应类别，从而，可以为业务数据确定出至少一个目标类别。在智能问答场景中，可以是确定出至少一个标准问题；在用户评估场景中，可以是对用户消费能力、信用度等方面的至少一个评估结果。

回顾以上过程，本说明书实施例所提供的针对模型进行数据预处理的方法，可以从训练样本中筛选出业务模型相关的初始样本，并利用针对多个类别提取的初始特征对这些初始样本进行特征重构，充分挖掘特征与特征之间、特征与属性类别之间的相关性，从而选择出的特征针对当前业务模型而言，更加准确的基准特征。当重构的基准特征和正负样本本来的类别标签组合构成新的正、负样本时，可以训练出更加有效的二分类的业务模型。进一步地，在通过机器学习方式进行的多标记业务处理过程中，可以对待处理的业务数据统一提取多个初始特征，保持了提取的特征的一致性，而在各个二分类的业务模型单独处理从业务数据提取的各个初始特征时，再对初始特征进行转换，得到在针对相应业务模型上的重构的基准特征上的各个特征值，从而由各个二分类的业务模型给出各个分类类别，多个业务模型的分类结果共同投票决定业务数据分类到各个类别的可能性，提供更有效的多标记业务处理结果。

根据另一方面的实施例，还提供一种针对业务模型进行数据预处理的装置。其中，这里业务模型用于在多标记业务处理过程中，针对业务数据在预定的多个类别中的第一类别和第二类别上进行分类，多个类别包含至少三个类别，初始样本集中包括第一数量的初始正样本和第二数量的初始负样本，其中，初始样本集中的单个初始样本对应有通过相应业务数据提取的多个初始特征，以及多个类别中的至少一个类别标签，初始正样本是对应有第一类别标签且不对应第二类别标签的初始样本，初始负样本是对应有第二类别标签且不对应第一类别标签的初始样本。

图4示出根据一个实施例的针对业务模型进行数据预处理的装置的示意性框图。如图4所示，针对业务模型进行数据预处理的装置400包括：第一确定单元41，配置为从第一数量的初始正样本或第二数量的初始负样本中获取第一初始样本；第二确定单元42，配置为针对初始样本集中的各个初始样本，分别确定各个初始样本与第一初始样本之间的各个相对距离；检测单元43，配置为根据各个相对距离，检测第一初始样本对第一数量的初始正样本和第二数量的初始负样本之间的区分性；选择单元44，配置为基于检测结果，确定是否将第一初始样本作为针对所述业务模型重构的特征空间中的基准特征，所述基准特征用于将业务数据映射到所述重构的特征空间中，从而进行业务分类处理。

值得说明的是，以上对图4所示的针对业务模型进行数据预处理的装置400，与图2示出的方法实施例相对应，图2对应的方法实施例中的相应描述也适用于图4所示的针对业务模型进行数据预处理的装置，在此不再赘述。

根据另一方面的实施例，还提供一种训练业务模型的装置。图5示出根据一个实施例的训练业务模型的装置的示意性框图。如图5所示，训练业务模型的装置500包括：提取单元51，配置为针对单个初始正样本，基于单个初始正样本的多个初始特征，提取单个初始正样本在针对上述业务模型重构的特征空间中的各个基准特征上的各个特征值，并与第一类别标签一起形成单个正样本，其中，多个基准特征由装置400确定；以及

针对单个初始负样本，基于单个初始负样本的多个初始特征，提取单个初始负样本在多个分类特征上的各个特征值，并与第二类别标签一起形成单个负样本；

训练单元52，配置为利用与第一数量的初始正样本对应的各个正样本和与第二数量的初始负样本对应的各个负样本训练选定的模型，得到针对第一类别和第二类别的业务模型。

根据另一方面的实施例，还提供一种针对业务数据进行多标记业务处理的装置，用于多标记业务处理过程中，为待处理的业务数据从预定的多个类别中确定至少一个目标类别。图6示出了根据一个实施例的针对业务数据进行多标记业务处理的装置600。装置600包括：

获取单元61，配置为获取待处理的业务数据；

提取单元62，配置为从待处理的业务数据中提取预定的多个初始特征，多个初始特征为对应于预定的多个类别的特征；

预测单元63，配置为利用预先训练的多个业务模型，分别基于所提取的各个初始特征为待处理的业务数据确定各个分类类别，其中，各个业务模型分别利用装置500进行训练，并分别用于针对业务数据在多个类别中的两两类别上进行分类；

确定单元64，配置为根据各个业务模型分别确定的各个分类类别，为待处理的业务数据确定至少一个目标类别。

值得说明的是，以上对图6所示的针对业务数据进行多标记业务处理的装置600，与图3示出的方法实施例相对应，图3对应的方法实施例中的相应描述也适用于图6所示的针对业务数据进行多标记业务处理的装置，在此不再赘述。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行相应描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现相应描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本本说明书的技术构思的具体实施方式而已，并不用于限定本说明书的技术构思的保护范围，凡在本本说明书的技术构思的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本本说明书的技术构思的保护范围之内。

Claims

1.一种针对业务模型进行数据预处理的方法，所述业务模型用于在智能客服平台的多标记业务处理过程中，针对用户问题在预定的多个标准问题类别中的第一类别和第二类别上进行二分类，所述多个标准问题类别包含至少三个类别，初始样本集中包括第一数量的初始正样本和第二数量的初始负样本，其中，所述初始样本集中的单个初始样本对应有通过相应用户问题提取的多个初始特征，以及所述多个标准问题类别中的至少一个标准问题作为类别标签，所述初始正样本是对应有第一类别标签且不对应第二类别标签的初始样本，所述初始负样本是对应有所述第二类别标签且不对应所述第一类别标签的初始样本，所述第一类别标签、所述第二类别标签分别是与所述第一类别、所述第二类别对应的类别标签；

所述方法包括：

针对所述初始样本集中的各个初始样本，分别由各个初始样本向所述第一初始样本维度进行投影，得到各个相对距离；

根据各个相对距离，检测所述第一初始样本对所述第一数量的初始正样本和第二数量的初始负样本之间的区分性；

基于检测结果，确定是否将所述第一初始样本作为针对所述业务模型重构的特征空间中的基准特征，所述基准特征用于将用户问题映射到由若干初始正样本和/或若干初始负样本重构的特征空间中，从而进行向标准问题的业务分类处理。

2.根据权利要求1所述的方法，其中，所述单个初始样本与所述第一初始样本之间的相对距离为，所述多个初始特征维度下的欧氏距离。

3.根据权利要求1所述的方法，其中，所述第一初始样本对所述第一数量的初始正样本和第二数量的初始负样本之间的区分性通过第一区分指标进行衡量，所述第一区分指标用于量化描述所述第一初始样本对所述第一数量的初始正样本和第二数量的初始负样本的区分程度。

4.根据权利要求3所述的方法，其中，所述第一区分指标为，第一数量的初始正样本和第二数量的初始负样本的类间距离与类内距离的比值，其中：所述类间距离为，所述第一数量的初始正样本相对于所述第一初始样本各个相对距离的平均值，与所述第二数量的初始负样本相对于所述第一初始样本的各个相对距离的平均值之差；

5.根据权利要求3所述的方法，其中，所述第一区分指标为，所述第一数量的初始正样本和所述第二数量的初始负样本对应的各个相对距离的离散度，所述离散度通过以下方式之一确定：极差、方差、标准差、平均差。

6.根据权利要求3所述的方法，其中，所述第一区分指标为以下两项的加权和：

7.根据权利要求3-6任一所述的方法，其中，所述基于检测结果，确定是否将所述第一初始样本作为针对所述业务模型重构的特征空间中的基准特征包括：

8.根据权利要求3-6任一所述的方法，其中，所述第一数量的初始正样本与所述第二数量的初始负样本中的各个初始样本分别对应各个区分指标；所述基于检测结果，确定是否将所述第一初始样本作为针对所述业务模型重构的特征空间中的基准特征包括：

9.根据权利要求8所述的方法，其中，在按照各个区分指标由大到小的顺序，从所述第一数量的初始正样本与所述第二数量的初始负样本中选择预定比例的候选特征的情况下，所述方法进一步包括：

确定第三数量为第一数量和第二数量中的较小值与所述预定比例的乘积的整数部分；

分别选择第三数量的初始正样本和第三数量的初始负样本，作为针对所述业务模型重构的特征空间中的基准特征。

10.根据权利要求1所述的方法，其中，所述多标记业务包括对字符、图像、音频中至少一项进行处理的业务。

11.一种训练业务模型的方法，所述业务模型用于在智能客服平台的多标记业务处理过程中，针对用户问题在预定的多个标准问题类别中的第一类别和第二类别上进行分类，初始样本集中包括第一数量的初始正样本和第二数量的初始负样本，其中，所述初始样本集中的单个初始样本对应有通过相应用户问题提取的多个初始特征，以及所述多个标准问题类别中的至少一个类别标签，所述初始正样本是对应有第一类别标签且不对应第二类别标签的初始样本，所述初始负样本是对应有所述第二类别标签且不对应所述第一类别标签的初始样本，所述第一类别标签、所述第二类别标签分别是与所述第一类别、所述第二类别对应的类别标签；

所述方法包括：

针对单个初始正样本，基于所述单个初始正样本的多个初始特征，确定所述单个初始正样本在针对所述业务模型重构的特征空间中的各个基准特征上的各个特征值，并与所述第一类别标签一起形成正样本，其中，各个基准特征按照权利要求1所述的针对业务模型进行数据预处理的方法确定；

针对单个初始负样本，基于所述单个初始负样本的多个初始特征，确定所述单个初始负样本在各个基准特征上的各个特征值，并与所述第二类别标签一起形成负样本；

12.根据权利要求11所述的方法，其中，所述基准特征包括第二基准特征，所述第二基准特征对应第二初始样本，单个初始正样本/单个初始负样本在所述第二基准特征上的特征值为，单个初始正样本/单个初始负样本与所述第二初始样本在所述多个初始特征构成的特征空间的欧式距离。

13.一种针对用户问题进行多标记业务处理的方法，所述方法包括：

获取待处理的用户问题；

从所述待处理的用户问题中提取预定的多个初始特征，所述多个初始特征为对应于预定的多个标准问题类别的特征；

利用预先训练的多个业务模型，分别基于所提取的各个初始特征为所述待处理的用户问题确定各个作为分类类别的标准问题，其中，各个业务模型分别按照权利要求11的训练业务模型的方法进行训练，并分别用于针对用户问题在所述多个标准问题类别中的两两类别上进行二分类；

根据各个业务模型分别确定的各个分类类别，为所述待处理的用户问题在所述多个标准问题类别中确定至少一个目标标准问题。

14.根据权利要求13所述的方法，其中，所述多个标准问题类别包括第三类别，所述根据各个业务模型分别确定的各个分类类别，为所述待处理的用户问题在所述多个标准问题类别中确定至少一个标准问题包括：

检测与所述第三类别相关的h个业务模型分别确定的h个标准问题中，所述第三类别在初始样本集中出现的条件下，在所述h个标准问题中出现的第一条件概率，以及所述第三类别在初始样本集中不出现的条件下，在所述h个标准问题中出现的第二条件概率；

基于所述第一条件概率和所述第一先验概率，确定所述h个标准问题中所述第三类别为真的概率，并基于所述第二条件概率和所述第二先验概率，确定在所述h个标准问题中所述第三类别非真的概率；

在所述第三类别为真的概率大于所述第三类别非真的概率的情况下，确定所述待处理的用户问题对应的目标标准问题包括所述第三类别。

15.根据权利要求14所述的方法，其中，所述基于所述第一条件概率和所述第一先验概率，确定所述h个标准问题中所述第三类别为真的概率包括：

所述基于所述第二条件概率和所述第二先验概率，确定在所述h个分类类别中所述第三类别非真的概率包括：

16.根据权利要求14或15所述的方法，其中，所述第一条件概率为，对应类别标签个数与所述多个标准问题类别中第三类别出现的次数一致的训练样本数，与以下项的商：包含第三类别的训练样本中，各个类别标签个数分别对应的训练样本数之和。

17.根据权利要求14或15所述的方法，所述第二条件概率为，对应类别标签个数与各个分类类别中不是第三类别的分类类别数量一致的训练样本数，与以下项的商：不包含第三类别的训练样本中，各个类别标签个数分别对应的训练样本数之和。

18.根据权利要求14所述的方法，其中，所述多个业务模型包括模型s，模型s对应于类别i和类别j，类别i对应r个正特征，类别j对应t个负特征，单个正特征/负特征通过相应样本在各个初始特征上的相对距离进行表示；

所述利用预先训练的多个业务模型，分别基于所提取的各个初始特征为所述待处理的用户问题确定各个作为分类类别的标准问题包括：

利用所述待处理的用户问题的各个初始特征分别确定所述待处理的用户问题在r个正特征、t个负特征上的各个特征值，其中，所述待处理的用户问题在单个正特征/负特征上的特征值为所述待处理的用户问题与所述单个正特征/负特征对应的单个初始样本在各个初始特征描绘的特征空间中的相对距离；

将所述待处理的用户问题在r个正特征、t个负特征上的各个特征值输入模型s，以供模型s输出所述待处理的用户问题在类别i和类别j之间的分类类别上的标准问题。

19.根据权利要求13所述的方法，其中，所述多标记业务包括对字符、图像、音频中至少一项进行处理的业务。

20.一种针对业务模型进行数据预处理的装置，所述业务模型用于在智能客服平台的多标记业务处理过程中，针对用户问题在预定的多个标准问题类别中的第一类别和第二类别上进行二分类，所述多个标准问题类别包含至少三个类别，初始样本集中包括第一数量的初始正样本和第二数量的初始负样本，其中，所述初始样本集中的单个初始样本对应有通过相应用户问题提取的多个初始特征，以及所述多个标准问题类别中的至少一个标准问题作为类别标签，所述初始正样本是对应有第一类别标签且不对应第二类别标签的初始样本，所述初始负样本是对应有所述第二类别标签且不对应所述第一类别标签的初始样本，所述第一类别标签、所述第二类别标签分别是与所述第一类别、所述第二类别对应的类别标签；

所述装置包括：

第二确定单元，配置为针对所述初始样本集中的各个初始样本，分别由各个初始样本向所述第一初始样本维度进行投影，得到各个相对距离；

选择单元，配置为基于检测结果，确定是否将所述第一初始样本作为针对所述业务模型重构的特征空间中的基准特征，所述基准特征用于将业务数据映射到由若干初始正样本和/或若干初始负样本重构的特征空间中，从而进行向标准问题的业务分类处理。

21.一种训练业务模型的装置，所述业务模型用于在智能客服平台的多标记业务处理过程中，针对业务数据在预定的多个标准问题类别中的第一类别和第二类别上进行二分类，初始样本集中包括第一数量的初始正样本和第二数量的初始负样本，其中，所述初始样本集中的单个初始样本对应有通过相应业务数据提取的多个初始特征，以及所述多个标准问题类别中的至少一个类别标签，所述初始正样本是对应有第一类别标签且不对应第二类别标签的初始样本，所述初始负样本是对应有所述第二类别标签且不对应所述第一类别标签的初始样本，所述第一类别标签、所述第二类别标签分别是与所述第一类别、所述第二类别对应的类别标签；

所述装置包括：

提取单元，配置为针对单个初始正样本，基于所述单个初始正样本的多个初始特征，确定所述单个初始正样本在针对所述业务模型重构的特征空间中的各个基准特征上的各个特征值，并与所述第一类别标签一起形成单个正样本，其中，各个基准特征由权利要求20所述的装置确定；以及

针对所述第二数量的初始负样本，基于单个初始负样本的多个初始特征，确定所述单个初始负样本在各个基准特征上的各个特征值，并与所述第二类别标签一起形成单个负样本；

22.一种针对用户问题进行多标记业务处理的装置，所述装置包括：

获取单元，配置为获取待处理的用户问题；

提取单元，配置为从所述待处理的用户问题中提取预定的多个初始特征，所述多个初始特征为对应于预定的多个标准问题类别的特征；

预测单元，配置为利用预先训练的多个业务模型，分别基于所提取的各个初始特征为所述待处理的用户问题确定各个作为分类类别的标准问题，其中，各个业务模型分别利用权利要求21的装置进行训练，并分别用于针对用户问题在所述多个标准问题类别中的两两类别上进行二分类；

确定单元，配置为根据各个业务模型分别确定的各个分类类别，为所述待处理的用户问题在所述多个标准问题类别中确定至少一个目标标准问题。

23.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-19中任一项的所述的方法。

24.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-19中任一项所述的方法。