CN110399984A

CN110399984A - 一种信息的预测方法、系统以及电子设备

Info

Publication number: CN110399984A
Application number: CN201910669544.XA
Authority: CN
Inventors: 陈永环; 邹泊滔; 孙清清; 王鑫云; 王淑钰; 赵云; 梅树起
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2019-11-01
Anticipated expiration: 2039-07-24
Also published as: CN110399984B

Abstract

本申请实施例公开了一种信息的预测方法，包括：根据已有样本中带标签的标记样本和不带标签的未标记样本建立第一样本集合，所述第一样本集合中的样本为带有标签的样本；根据所述标记样本建立第二样本集合；将所述第一样本集合和第二样本集合合并，得到第三样本集合；根据所述第一样本集合中样本的特征和标签之间的关系、所述第二样本集合中样本的特征和标签之间的关系、所述第三样本集合中样本的特征和标签之间的关系，分别生成第一映射函数、第二映射函数和第三映射函数；根据业务需求，通过所述第一映射函数对输入信息进行预测，或通过所述第一映射函数和第二映射函数对输入信息进行预测，或通过所述第三映射函数对输入信息进行预测。

Description

一种信息的预测方法、系统以及电子设备

技术领域

本说明书实施例涉及数据库领域，尤其涉及一种信息的预测方法、系统以及电子设备。

背景技术

随着科技的发展，机器学习在人们生活中的使用越来越广泛，目前主流的机器学习方法主要有监督学习和非监督学习，监督学习和非监督学习均存在一些问题，例如，传统的监督学习较依赖于人工标注训练数据集合，但是人工标注训练数据集合占整个数据集合比例较低，因此监督学习准确率较高但是覆盖率不够，而且准确率强依赖于人工标注训练数据，人工标注错误不易识别。而对于非监督式学习，其准确率较低，因此在要求高准确率的场景中应用受限。

发明内容

为了解决以上技术问题，本说明书实施例的主要目的在于提供一种信息的预测方法、系统以及电子设备，以解决现有技术中监督学习存在的覆盖率低和非监督学习中存在的准确率低的技术问题。

本说明书的一个或多个实施例的技术方案是通过以下方式实现的：

本申请实施例提供一种信息的预测方法，包括：

根据已有样本中带标签的标记样本和不带标签的未标记样本建立第一样本集合，所述第一样本集合中的样本为带有标签的样本；

根据所述标记样本建立第二样本集合；

将所述第一样本集合和第二样本集合合并，得到第三样本集合；

根据所述第一样本集合中样本的特征和标签之间的关系、所述第二样本集合中样本的特征和标签之间的关系、所述第三样本集合中样本的特征和标签之间的关系，分别生成与第一样本集合对应的第一映射函数、与第二样本集合对应的第二映射函数、与第三样本集合对应的第三映射函数；

根据业务需求，通过所述第一映射函数对输入信息进行预测，或通过所述第一映射函数和第二映射函数对输入信息进行预测，或通过所述第三映射函数对输入信息进行预测。

本申请实施例还提供一种信息的预测方法，所述根据已有样本中带标签的标记样本和不带标签的未标记样本建立第一样本集合，具体包括：

对所述标记样本和未标记样本进行预处理；

根据所述预处理的结果生成标记样本对应的特征集合和未标记样本对应的特征集合；

计算所述未标记样本对应的特征与标记样本对应的特征的相似度；

根据所述相似度将所述标记样本的标签添加到所述未标记样本中，作为所述未标记样本的标签；

将添加标签的未标记样本作为第一样本集合。

本申请实施例还提供一种信息的预测方法，所述标记样本和未标记样本均包括输入文本信息和用户属性信息。

本申请实施例还提供一种信息的预测方法，对所述标记样本和未标记样本进行预处理，具体包括：

对所述标记样本和未标记样本中的输入文本信息进行文本处理，所述文本处理包括对输入文本信息进行统一字符处理、分词处理、称谓词识别、词性标注、语种识别；

对所述标记样本和未标记样本中用户属性信息做数值化处理。

本申请实施例还提供一种信息的预测方法，根据所述预处理的结果生成标记样本对应的特征集合和未标记样本对应的特征集合具体为：

将所述预处理的结果转化为词向量，生成标记样本中输入文本信息对应的第一子特征集合、用户属性信息对应的第二子特征集合，以及未标记样本中输入文本信息对应的第三子特征集合、用户属性信息对应的第四子特征集合。

本申请实施例还提供一种信息的预测方法，计算所述未标记样本对应的特征与标记样本对应的特征的相似度，具体包括：

计算所述未标记样本中输入文本信息对应的第三子特征集合中的特征，与所述标记样本中输入文本信息对应的第一子特征集合中的特征的相似度；和/或，

计算所述未标记样本中用户属性信息对应的第四子特征集合中的特征，与所述标记样本中用户属性信息对应的第二子特征集合中的特征的相似度。

本申请实施例还提供一种信息的预测方法，计算所述未标记样本对应的特征与标记样本对应的特征的相似度的计算方法具体为：计算所述未标记样本对应的特征与标记样本对应的特征之间的余弦距离得到两者的相似度。

本申请实施例还提供一种信息的预测方法，当所述标记样本和未标记样本中的输入文本信息和/或用户属性信息中包括集外词时，计算所述集外词的编辑距离进而计算所述未标记样本与标记样本的相似度。

本申请实施例还提供一种信息的预测方法，在计算所述标记样本对应的特征与未标记样本对应的特征的相似度之前，还包括：

设置相似度阈值和需要选择的相似度的范围。

本申请实施例还提供一种信息的预测方法，根据所述相似度将所述标记样本的标签添加到所述未标记样本中，作为所述未标记样本的标签，具体为：

判断所述相似度是否大于所述相似度阈值和所述相似度是否在需要选择的相似度的范围之内，以及所述未标记样本是否与所述标记样本一一对应；

当所述相似度大于所述相似度阈值，并且所述未标记样本与所述标记样本一一对应时，将所述标记样本的标签添加到所述未标记样本中，作为所述未标记样本的标签；和/或，

当所述相似度大于所述相似度阈值，并且所述未标记样本与多个所述标记样本对应时，根据所述未标记样本对应的多个所述标记样本对所述未标记样本进行标签的添加。

本申请实施例还提供一种信息的预测方法，根据所述未标记样本对应的多个所述标记样本对所述未标记样本进行标签的添加，具体为：

判断所述未标记样本对应的多个所述标记样本的标签是否一致；

当所述未标记样本对应的多个所述标记样本的标签一致时，将多个所述标记样本的标签添加到所述未标记样本中，作为所述未标记样本的标签；

否则，不对所述未标记样本添加标签。

本申请实施例还提供一种信息的预测方法，

根据所述标记样本建立第二样本集合，具体为：

提取所述标记样本的特征，根据所述标记样本的标签和提取的所述标记样本的特征，生成第二样本集合；

将所述第一样本集合和第二样本集合合并，得到第三样本集合，具体为：

提取所述标记样本的特征和未标记样本的特征，根据所述标记样本的标签和未标记样本添加的标签，以及提取的所述标记样本和未标记样本的特征，生成第三样本集合。

本申请实施例还提供一种信息的预测方法，根据所述第一样本集合中样本的特征和标签之间的关系、所述第二样本集合中样本的特征和标签之间的关系、所述第三样本集合中样本的特征和标签之间的关系，生成与所述第一样本集合对应的第一映射函数、与所述第二样本集合对应的第二映射函数、与所述第三样本集合对应的第三映射函数，具体为：

利用所述第一样本集合中样本的特征和标签之间的关系、所述第二样本集合中样本的特征和标签之间的关系、所述第三样本集合中样本的特征和标签之间的关系，通过监督学习的方式训练具有可解释性的模型，生成与所述第一样本集合对应的第一具有可解释性的模型、与所述第二样本集合对应的第二具有可解释性的模型、与所述第三样本集合对应的第三具有可解释性的模型。

本申请实施例还提供一种信息的预测方法，通过所述第一映射函数、第二映射函数和第三映射函数对输入信息进行处理，具体包括：

通过所述第一具有可解释性的模型对输入信息进行预测；或

通过所述第二具有可解释性的模型对输入信息进行预测，将通过所述第一具有可解释性的模型对输入信息进行预测的结果，与通过所述第二具有可解释性的模型对输入信息进行预测的结果取交集；或

将通过所述第一具有可解释性的模型对输入信息进行预测的结果，与通过所述第二具有可解释性的模型对输入信息进行预测的结果取并集；或

通过所述第三具有可解释性的模型对输入信息进行预测。

本申请实施例还提供一种信息的预测系统，包括：

第一样本建立模块，根据已有样本中带标签的标记样本和不带标签的未标记样本建立第一样本集合，所述第一样本集合中的样本为带有标签的样本；

第二样本集合建立模块，根据所述标记样本建立第二样本集合；

第三样本集合建立模块，将所述第一样本集合和第二样本集合合并，得到第三样本集合；

映射函数生成模块，利用所述第一样本集合中样本的特征和标签之间的关系、所述第二样本集合中样本的特征和标签之间的关系、所述第三样本集合中样本的特征和标签之间的关系，分别生成与第一样本集合对应的第一映射函数、与第二样本集合对应的第二映射函数、与第三样本集合对应的第三映射函数；

信息预测模块，根据业务需求，通过所述第一映射函数对输入信息进行预测，或通过所述第一映射函数和第二映射函数对输入信息进行预测，或通过所述第三映射函数对输入信息进行预测。

本申请实施例还提供一种信息的预测系统，所述第一样本建立模块包括：

预处理子模块，对所述标记样本和未标记样本进行预处理；所述标记样本和未标记样本均包括输入文本信息和用户属性信息；

特征生成子模块，根据所述预处理的结果生成标记样本对应的特征集合和未标记样本对应的特征集合；

第一相似度计算子模块，计算所述未标记样本对应的特征与标记样本对应的特征的相似度；

标签添加子模块，根据所述相似度将所述标记样本的标签添加到所述未标记样本中，作为所述未标记样本的标签；

第一样本集合生成子模块，将添加标签的未标记样本作为第一样本集合。

本申请实施例还提供一种信息的预测系统，所述预处理子模块包括：

文本处理单元，对所述标记样本和未标记样本中的输入文本信息进行文本处理，所述文本处理包括对输入文本信息进行统一字符处理、分词处理、称谓词识别、词性标注、语种识别；

数值化处理单元，对所述标记样本和未标记样本中用户属性信息做数值化处理。

本申请实施例还提供一种信息的预测系统，所述第一样本建立模块包括：第二相似度计算子模块，当所述标记样本和未标记样本中的输入文本信息和/或用户属性信息中包括集外词时，计算所述集外词的编辑距离进而计算所述未标记样本与标记样本的相似度。

本申请实施例还提供一种信息的预测系统，所述第一样本建立模块还包括预设值设置模块，设置相似度阈值和需要选择的相似度的范围。

本申请实施例还提供一种信息的预测系统，所述标签添加子模块包括：

第一判断单元，判断所述相似度是否大于所述相似度阈值和所述相似度是否在需要选择的相似度的范围之内，以及所述未标记样本是否与所述标记样本一一对应；

第一标签添加单元，当所述相似度大于所述相似度阈值，并且所述未标记样本与所述标记样本一一对应时，将所述标记样本的标签添加到所述未标记样本中，作为所述未标记样本的标签；和/或，

第二标签添加单元，当所述相似度大于所述相似度阈值，并且所述未标记样本与多个所述标记样本对应时，根据所述未标记样本对应的多个所述标记样本对所述未标记样本进行标签的添加。

本申请实施例还提供一种信息的预测系统，所述第二标签添加单元包括：

第二判断单元，判断所述未标记样本对应的多个所述标记样本的标签是否一致；

标签添加子单元，当所述未标记样本对应的多个所述标记样本的标签一致时，将多个所述标记样本的标签添加到所述未标记样本中，作为所述未标记样本的标签；

否则，不对所述未标记样本添加标签。

本申请实施例还提供一种信息的预测系统，所述第二样本集合建立模块包括：

第一特征提取子模块，提取所述标记样本的特征；

第二样本生成子模块，根据所述标记样本的标签和提取的所述标记样本的特征，生成第二样本集合。

本申请实施例还提供一种信息的预测系统，所述第三样本集合建立模块包括：

第二特征提取子模块，提取所述标记样本的特征和未标记样本的特征；

第三样本生成子模块，根据所述标记样本的标签和未标记样本添加的标签，以及提取的所述标记样本和未标记样本的特征，生成第三样本集合。

本申请实施例还提供一种信息的预测系统，所述映射函数生成模块配置为：

根据所述第一样本集合中样本的特征和标签之间的关系、所述第二样本集合中样本的特征和标签之间的关系、所述第三样本集合中样本的特征和标签之间的关系，通过监督学习的方式训练具有可解释性的模型，生成与所述第一样本集合对应的第一具有可解释性的模型、与所述第二样本集合对应的第二具有可解释性的模型、与所述第三样本集合对应的第三具有可解释性的模型。

本申请实施例还提供一种信息的预测系统，所述信息预测模块包括：

第一信息预测子模块，通过所述第一具有可解释性的模型对输入信息进行预测；

第二信息预测子模块，通过所述第二具有可解释性的模型对输入信息进行预测；

第三信息预测子模块，将通过所述第一具有可解释性的模型对输入信息进行预测的结果，与通过所述第二具有可解释性的模型对输入信息进行预测的结果取交集；

第四信息预测子模块，将通过所述第一具有可解释性的模型对输入信息进行预测的结果，与通过所述第二具有可解释性的模型对输入信息进行预测的结果取并集；

第五信息预测子模块，通过所述第三具有可解释性的模型对输入信息进行预测。

本申请实施例还提供一种电子设备，包括：

存储器，用于存储程序指令；

处理器，用于执行所述程序指令，以实现上述以实现上述本申请实施例中所述的信息的预测方法。

相比于现有技术，本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

当需要提高覆盖率时，可以选择第一具有可解释性的模型对输入信息进行预测处理，通过该种方式得到的预测处理结果，相比于通过只有标记样本的第二样本集合对应的第二具有可解释性的模型进行预测处理的结果，带有标记的样本数量增加了，提高了覆盖率。并且降低对人工标记数据的依赖程度、降低人工标记成本。也可以选择先通过第二具有可解释性的模型对输入信息进行预测处理，然后在选择通过第一具有可解释性的模型对于输入信息进行预测处理，最后将通过两种方式处理的结果取并集，通过这种方式可以进一步提高覆盖率。

当需要提高准确率时，可以选择第二具有可解释性的模型对输入的信息进行预测处理，通过该种方式得到的处理结果，比通过只有未标记样本得到的映射函数处理后的结果，准确率更高。由于第二样本集合只包括标记样本，所以通过第二具有可解释性的模型得到的处理结果覆盖率较低，所以，还可以将第一具有可解释性的模型处理的结果与第二具有可解释性的模型处理的结果取交集，这样得到的准确率会更高。

当在第二具有可解释性的模型的处理结果覆盖率较低，和只通过未标记样本得到的映射函数进行预测处理的结果准确率较低之间进行均衡处理时，也就是同时提高覆盖率降低准确率时，可以选择第三具有可解释性的模型对输入信息进行预测处理。

本申请实施例提供的技术方案可以根据业务需求选择根据不同的样本集合生成的映射关系，对不同的目标信息进行处理。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书的一个实施例提供的一种信息预测方法的流程示意图；

图2为本说明书的一个实施例提供的一种已有样本中标记样本和未标记样本之间的关系建立第一样本集合的具体流程图；

图3为本说明书的一个实施例提供的一种信息预测系统的结构示意图；

图4为本说明书的一个实施例提供的一种第一样本集合模型的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

当前在很多应用场景中都需要做信息处理，尤其是一些文本信息，例如医疗保险审批、法律判决、反洗钱、禁限售、舆情、内容安全等领域。在这些领域需要对信息进行审核，为了提高工作效率，使用了机器学习方法对需要进行处理的信息进行处理，例如分类等。

目前主要机器学习方式主要有监督学习和无监督学习，现有的监督学习和无监督学习存在一些问题，不能满足当前使用环境的需求。

监督学习，即为从给定的有标签的训练数据集中学习出一个函数，当输入新的数据时，可以根据这个函数预测新的数据对应的结果。监督学习的训练集需要包括输入和输出，也可以说是特征和目标(标签)。训练集中的目标是由人工标注的。例如，将邮件进行是否垃圾邮件的分类，一开始我们先将一些邮件及其标签(垃圾邮件或非垃圾邮件)一起进行训练，学习模型不断捕捉这些邮件与标签间的联系进行自我调整和完善，然后我们给一些不带标签的新邮件，让该模型对新邮件进行是否是垃圾邮件或非垃圾邮件的分类。常见的监督学习主要包括回归分析和统计分类，常见算法有随机森林算法(RF)、逻辑回归算法(LR)、梯度提升树算法(GBDT)、极端梯度提升算法(XGBoost)、Bagging算法等。

但是监督学习方式还存在一些缺点：强依赖于标注训练数据集，标注训练数据集的大小决定了模型的准确率和召回率，监督学习无法使用没有标注有标签的数据进行学习，只能利用带有标签的数据进行学习。但是在各个领域中，标注有标签的训练数据集占整个数据集的比例较低，通常只有少量的有标记的数据。因为有时对数据进行标记的代价很高，比如在生物学中，对某种蛋白质的结构分析或者功能鉴定，生物学家可能会花上很多年时间进行这项工作，而大量的未标记的数据却很容易得到，这样导致监督学习的召回率较低，鲁棒性较低。

无监督学习亦称非监督学习，与监督学习相比，无监督学习的训练数据集是没有人为标注标签的。例如，高考前的一些模拟试卷，是没有标准答案的，也就是没有参照是对还是错，但是我们还是可以根据这些问题之间的联系将语文、数学、英语分开，这个过程就叫做聚类。无监督学习在只有特征，没有标签的训练数据集中，通过数据之间的内在联系和相似性将他们分成若干类。常见的非监督式学习算法有聚类。常见算法有K均值聚类算法(Kmeans)、K最邻近算法(KNN)、孤立森林算法(Isolation Forest)、K中心点算法(K-core)等。

无监督学习还存在一些缺点：由于不依赖于标注有标签的训练数据集，对于医疗保险审批、法律判决、反洗钱、禁限售、舆情、内容安全等要求高准确率的场景，会造成较大的出错概率。

由上述内容可知，传统的监督学习较依赖于人工标注训练数据集合，但是人工标注训练数据集合占整个数据集合比例较低，因此监督学习准确率较高但是覆盖率不够，而且准确率强依赖于人工标注训练数据，人工标注错误不易识别。而对于非监督式学习，其准确率较低且无较强的可解释性，因此在上述要求高准确率的场景中应用受限。

因此，针对监督式训练覆盖率不够且强依赖人工审核准确率的问题以及非监督学习准确率较低的问题，本申请实施例提出了一种可以解决上述技术问题的新方法。

以下结合附图，详细说明本说明书的一个或多个实施例提供的技术方案。

如图1所示，为本申请实施例提供的一种信息的预测方法，该方法主要包括以下步骤：

步骤S100，根据已有样本中带标签的标记样本和不带标签的未标记样本建立第一样本集合，第一样本集合中的样本为带有标签的样本。通过设置带标签的标记样本和不带标签的未标记样本之间的关系，将符合条件的不带标签的未标记样本视为新的带标签的样本，也就是当带标签的标记样本和不带标签的未标记样本满足一定的关系之后，将带标签的标记样本标记的标签标记在不带标签的未标记样本中，不带标签的未标记样本中新添加与该未标记样本对应的带标签的标记样本的标签。带标签的标记样本和不带标签的未标记样本之间的关系，具体可以是带标签的标记样本中样本的特征与不带标签的未标记样本中样本的特征之间的关系。将添加标签的不带标签的未标记样本作为第一样本结合。以下各实施例以及各步骤中所说的未标记样本均为原本不带标签的未标记样本，标记样本均为带标签的标记样本。

通过未标记样本的与标记样本之间的关系，将未标记样本确定为可能与标记样本具有相同标签的样本，为未标记样本条件与标记样本相同的标签。这样就增大了标记样本的数量，标记样本占据总样本的比例增大后，通过原有的标记样本和添加标签的未标记样本训练得到的模型或者学习得到的函数，其召回率(覆盖率)得到了很大的提高。

此外，还降低了对人工标注的依赖，同时降低了人工对样本标记的成本。

步骤S200，根据标记样本建立第二样本集合，将标记样本的特征和标签作为第二样本集合，该样本集合中的样本可以作为监督学习的样本，特征和标签之间的映射关系具有较高的准确率。

步骤S300，将第一样本集合和第二样本集合合并，得到第三样本集合。第一样本集合和第二样本集合中的样本均为带有标签的样本，将这些样本作为第三样本集合。该样本集合相对于第一样本集合而言，因为该样本集合中包括更多的标记样本(此处的标记样本为原始就带有标签的标记样本，不包括后来添加标签的未标记样本)，准确率比第一样本集合的准确率更高。该样本集合相对于第二样本而言，因为该样本集合包括更多的添加标签的未标记样本，条件标签后的未标记样本同样视为有标签的样本，召回率(覆盖率)比第二样本集合的召回率更高。

步骤S400，根据第一样本集合中样本的特征和标签之间的关系、第二样本集合中样本的特征和标签之间的关系、第三样本集合中样本的特征和标签之间的关系，生成与第一样本集合对应的第一映射函数、与第二样本集合对应的第二映射函数、与第三样本集合对应的第三映射函数。

步骤S500，根据业务需求，通过第一映射函数对输入信息进行预测，或通过第一映射函数和第二映射函数对输入信息进行预测，或通过第三映射函数对输入信息进行预测。根据使用需求，选择不同的映射函数对输入信息进行处理。也可以选择多种映射函数对输入信息进行处理，然后再将多种映射函数对输入信息的处理结果进行选择，例如取交集或者并集等。

例如，当需要提高覆盖率时，可以选择第一具有可解释性的模型对输入信息进行预测处理，通过该种方式得到的预测处理结果，相比于通过只有标记样本的第二样本集合对应的第二具有可解释性的模型进行预测处理的结果，带有标记的样本数量增加了，提高了覆盖率。并且降低对人工标记数据的依赖程度、降低人工标记成本。也可以选择先通过第二具有可解释性的模型对输入信息进行预测处理，然后在选择通过第一具有可解释性的模型对于输入信息进行预测处理，最后将通过两种方式处理的结果取并集，通过这种方式可以进一步提高覆盖率。

其中，映射函数包括具有可解释性的模型，具有可解释性的模型可以是通过梯度提升树算法、极端梯度提升算法等算法训练得到的机器学习模型。

上述实施例提供的技术方案实现了根据不同需求选择不同样本集合对应的映射函数，然后对需要处理的信息进行预测处理。本申请还提供了一种对上述实施例提供的技术方案的优化技术方案，具体内容请参考如下实施例。

参考图2，为本申请提供的一种建立第一样本集合的具体流程示意图，根据已有样本中标记样本和未标记样本之间的关系建立第一样本集合，该步骤是根据标记样本的特征选择出未标记样本中可能与标记样本具有相同特征的样本，并将从未标记样本中选择出来的可能与标记样本具有相同特征的样本进行标记，标记所添加的标签与标记样本的标签相同，使添加标签的这些未标记样本成为新的标记样本。该步骤增加了带标记的样本的数量，进一步提高了使用带标签的样本得到的函数或者模型的准确率。根据标记样本的特征具体包括：

步骤S101，对带标签的标记样本和不带标签的未标记样本进行预处理。在本实施例中，已有样本包括标记样本和未标记样本，标记样本的数量远远小于未标记样本的数量。例如，已有样本一共有一千万个，其中，标记样本有五十万个，未标记样本集有九百五十万个。标记样本和未标记样本中均包括输入文本信息和用户属性信息，将这些信息作为样本的特征信息。在很多领域都需要对相应的信息进行审核，例如在医疗保险、购物、舆情、金融安全等领域需要对相应的信息进行处理，这些领域的信息需要用户输入相应的文本信息，用户的属性信息等。当然还以包括其他信息，在本实施例中以上述两种信息为例进行说明，对信息进行的处理包括分类等。预处理是为了后续步骤进行进一步操作。

其中，对标记样本和未标记样本进行预处理，具体包括：

对标记样本和未标记样本中的输入文本信息进行文本处理，文本处理包括对输入文本信息进行统一字符处理、分词处理、称谓词识别、词性标注、语种识别等。当样本中包括输入文本信息时，对输入文本信息进行处理，当不包括输入文本信息时，对用户属性信息进行处理。样本中的输入文本信息可以对样本进行操作的一系列信息，例如在购物的场景中，某个用户的购物信息即为样本，输入的要搜索的物品名称就是样本的输入文本信息，搜索结果可以是有标签的，也可以是无标签的。当搜索结果有标签时，该用户的购物信息为标记样本，当搜索结果无标签时，该用户的购物信息为未标记样本。对输入的物品名称进行统一字符处理、分词处理、称谓词识别、词性标注、语种识别等这些处理方式中的一种或多种处理。

样本还可以是用户发布的一些舆情信息，如果用户发布的这些舆情信息有标签(例如正面信息或者负面信息、积极信息或者消极信息等)，则用户发布的这些舆情信息为标记样本，如果用户发布的这些舆情信息没有标签，则用户发布的这些舆情信息为未标记样本。用户发布的这些舆情信息即为输入文本信息，对这些输入文本信息进行文本处理，处理方式包括统一字符处理、分词处理、称谓词识别、词性标注、语种识别中等中的一种或多种，以便后续步骤进行进一步处理。此处不再例举更多的关于样本或者样本中输入文本信息的实施例，只要包括输入信息的样本都在本实施例的保护范围之内。

对标记样本和未标记样本中用户属性信息做数值化处理。样本中还可以包括用户属性信息，用户在输入文本信息时会有对应的用户属性信息与输入的文本信息相关联。例如，某一用户在输入舆情信息时，关联有该用户的网络信息、地址信息(包括IP地址)、国家等。当用户输入其姓名、性别、生日等用户属性信息时，这些信息同样会与该用户输入或者发布的舆情信息相关联。对这些用户属性信息进行数值化处理，该数值化处理规则可以是用户自定义的或者按照一定的标准得到的。例如该用户的国家为中国，将中国数值化处理之后为86，该用户的姓名为张三，将张三数值化处理之后为12。其他用户属性信息都可以通过数值化处理得到对应的处理结果。

步骤S102，根据预处理的结果生成标记样本对应的特征集合和未标记样本对应的特征集合。标记样本和未标记样本中的输入文本信息和用户属性信息在经过预处理之后得到预处理结果，根据预处理结果生成与预处理结果对应的特征向量，这些特征向量组成特征集合。该步骤具体如下：

将所述预处理的结果转化为词向量，生成标记样本中输入文本信息对应的第一子特征集合、用户属性信息对应的第二子特征集合，以及未标记样本中输入文本信息对应的第三子特征集合、用户属性信息对应的第四子特征集合。其中：

将标记样本和未标记样本中输入文本信息和用户属性信息在经过与预处理之后得到的预处理结果，通过产生词向量的模型WORD2VEC或嵌入词向量Word Embedding得到相应的词向量(特征向量)。具体可以是标记样本和未标记样本对应中输入文本信息对应的特征向量、标记样本和未标记样本中用户属性信息对应的特征向量分别组成的特征集合FT＝{ft1,ft2,ft3…ftn}、FU＝{fu1,fu2…fun}，ft,fu分别表示标记样本和未标记样本中输入信息对应的特征向量、标记样本和未标记样本中用户属性信息对应的特征向量。

也可以是标记样本中输入文本信息对应的词向量、标记样本中用户属性信息对应的词向量、未标记样本中输入文本信息对应的词向量、未标记样本中用户属性信息对应的词向量。标记样本对应的标记样本中输入文本信息对应的词向量、标记样本中用户属性信息对应的词向量、未标记样本中输入文本信息对应的词向量、未标记样本中用户属性信息对应的词向量分别组成标记样本中输入文本信息对应的第一子特征集合FT₁＝{ft₁1,ft₁2…ft₁n}、用户属性信息对应的第二子特征集合FU₁＝{fu₁1,fu₁2…fu₁n}，以及未标记样本中输入文本信息对应的第三子特征集合FT₂＝{f₂t1,ft₂2…ft₂n}、用户属性信息对应的第四子特征集合FU₂＝{fu₂1,fu₂2…fu₂n}。ft₁,fu₁,ft₂,fu₂分别表示标记样本中输入文本信息对应的特征向量、标记样本中用户属性信息对应的特征向量、未标记样本中输入文本信息对应的特征向量和未标记样本中用户属性信息对应的特征向量。

步骤S103，计算未标记样本对应的特征与标记样本对应的特征的相似度。

计算未标记样本对应的特征与标记样本对应的特征的相似度，包括：

计算未标记样本中输入文本信息对应的第三子特征集合中的特征，与标记样本中输入文本信息对应的第一子特征集合中的特征的相似度。具体为：计算未标记样本中输入文本信息对应的第三特征集合中的特征向量，与标记样本中输入文本信息对应的第一子特征集合中的特征向量的相似度。相似度的计算方法可以是计算未标记样本中输入文本信息对应的特征向量与标记样本中输入文本信息对应的特征向量之间的余弦距离得到两者的相似度，余弦距离越大说明相似度越高，余弦距离越小说明相似度越低。经过相似度计算后，标记样本中输入文本信息对应的特征向量与一个或者多个未标记样本中输入文本信息对应的特征向量相对应。在未标记样本中，一个未标记样本的输入文本信息对应的特征向量可能与某一个或者多个标记样本中输入文本信息对应的特征向量相似，相似度之间可能会有所差异。

还可以包括计算未标记样本中用户属性信息对应的第四子特征集合中的特征，与标记样本中用户属性信息对应的第二子特征集合中的特征的相似度。具体为：计算未标记样本中用户属性信息对应的第四特征集合中的特征向量，与标记样本中输入文本信息对应的第二子特征集合中的特征向量的相似度。相似度的计算方法可以是计算未标记样本中用户属性信息对应的特征向量与标记样本中用户属性信息对应的特征向量之间的余弦距离得到两者的相似度，余弦距离越大说明相似度越高，余弦距离越小说明相似度越低。经过相似度计算后，标记样本中用户属性信息对应的特征向量与一个或者多个未标记样本中用户属性信息对应的特征向量相对应。在未标记样本中，一个未标记样本的用户属性信息对应的特征向量可能与某一个或者多个标记样本中用户属性信息对应的特征向量相似，相似度之间可能会有所差异。

还可以是，将未标记样本中输入文本信息对应的特征向量和标记样本中输入文本信息对应的特征向量的相似度，与未标记样本中用户属性信息对应的特征向量和标记样本中用户属性信息对应的特征向量的相似度相加，作为未标记样本对应的特征向量与标记样本对应的特征向量的相似度，进而作为未标记样本与标记样本的相似度。

此外，当标记样本和未标记样本中的输入文本信息和/或用户属性信息中包括集外词时，集外词(OOV)即为不能通过WORD2VEC或嵌入词向量Word Embedding得到相应的词向量的输入文本信息，计算集外词的编辑距离进而计算所述未标记样本与标记样本的相似度。可能标记样本中存在集外词，也可能未标记样本中存在集外词，也可能标记样本和未标记样本中同时存在集外词，当存在集外词时，计算一个样本中集外词与另一个样本中非集外词/或集外词之间的编辑距离，将编辑距离作为两个样本对应的相似度。

例如，当一个未标记样本中的特征(可以是输入文本信息或用户属性信息等)中包括集外词，计算该未标记样本的输入文本信息或用户属性信息与标记样本中输入文本信息或用户属性信息的编辑距离，将编辑距离作为未标记样本与标记样本的相似度。编辑距离越小，相似度越高。

步骤S104，根据相似度将标记样本的标签添加到未标记样本中，作为未标记样本的标签。

其中，在计算标记样本对应的特征与未标记样本对应的特征的相似度之前，或者在步骤S104之前，或者在标记样本或未标记样本中存在集外词，计算相似度之前，还包括：设置相似度阈值和需要选择的相似度的范围。由于标记样本可能对应多个未标记样本，也就是说有多个未标记样本与标记样本相似，需要选择出一定数量的未标记样本，并不是将所有的与标记样本对应的未标记样本进行处理，所以需要设置相似度阈值和需要选择的相似度的范围，每个相似度对应着一个标记样本和一个未标记样本，也就选出了需要选择的未标记样本。根据设置的相似度阈值和需要选择的相似度的范围，选择与标记样本满足一定相似关系的未标记样本。

步骤S104具体包括：

判断未标记样本中输入文本信息对应的特征与标记样本中输入文本信息对应的特征的相似度是否大于相似度阈值，或未标记样本中用户属性信息对应的特征与标记样本中用户属性信息对应的特征的相似度是否大于相似度阈值，或未标记样本中用户属性信息对应的特征和标记样本中用户属性信息对应的特征的相似度，与未标记样本中输入文本信息对应的特征和标记样本中输入文本信息对应的特征的相似度相加之和是否大于相似度阈值。同时判断相似度是否在需要选择的相似度的范围之内，以及未标记样本是否与标记样本一一对应。

当未标记样本对应的特征的相似度大于相似度阈值时，选取需要选择的未标记样本的数量值之内的未标记样本，在本实施例中，需要选择的未标记样本的数量值可以理解为达到相似度阈值的未标记样本中，根据相似度的高低排序选出的前N名的未标记样本的数量值，也就是相似度在需要选择的相似度的范围之内的情况。并且还需要判断未标记样本是否与所述标记样本一一对应，一个未标记样本对应的特征可能与一个标记样本对应的特征的相似度满足预设的相似度阈值并且在需要选择的相似度的范围之内，也可能与多个标记样本对应的特征的相似度满足预设的相似度阈值并且在需要选择的相似度的范围之内，这两种情况具体如下：

当相似度大于相似度阈值、相似度在需要选择的相似度的范围之内，并且未标记样本与标记样本一一对应时，将标记样本的标签添加到未标记样本中，作为未标记样本的标签。例如，标记样本为Xi，未标记样本有n个，分别为X1、X2…Xn，预设的相似度阈值为0.8，需要选择的相似度的范围为选择大于相似度阈值的前100个相似度，并且这前100个未标记样本对应的特征相似度只与这个标记样本对应的特征满足：相似度大于相似度阈值、相似度在需要选择的相似度的范围之内。将这前100个相似度对应的未标记样本视为与标记样本具有相同标签的样本，这前一百个未标记样本添加与对应的标记样本中的标签，作为新的带标签的样本。

例如，X1对应的特征与Xi对应的特征的相似度大于预设的相似度阈值，X1对应的特征与Xi对应的特征的相似度在前100个相似度之内(为50)，并且X1对应的特征只与Xi对应的特征满足相似度大于相似度阈值、相似度在需要选择的相似度的范围之内。此时，说明X1是与Xi相似的样本，X1添加Xi的标签，X1作为新的有标签的样本。如果X2…X100与X1情况相同，则X2…X100分别添加Xi的标签。

当相似度大于相似度阈值、相似度在需要选择的相似度的范围之内，并且未标记样本与多个标记样本对应时，根据未标记样本对应的多个标记样本对未标记样本进行标签的添加。具体如下：

判断未标记样本对应的多个标记样本的标签是否一致；

当未标记样本对应的多个标记样本的标签一致时，将多个标记样本的标签添加到未标记样本中，作为未标记样本的标签。

否则，不对未标记样本添加标签。

例如，当X1对应的特征与Xi对应的特征的相似度满足大于相似度阈值、相似度在需要选择的相似度的范围之内这两个条件，但是，X1对应的特征并不只是与Xi对应的特征的相似度满足大于相似度阈值、相似度在需要选择的相似度的范围之内这两个条件，还与标记样本Xo对应的特征的相似度满足上述两个条件，这时就要判断Xi与Xo的标签是否一致。如果Xi与Xo的标签相同，则为X1添加标签Xi、Xo的标签。如果Xi与Xo的标签不相同，则X1不添加新的标签。

当然还可以对X1和其他标记样本分别进行上述步骤S104的判断。

步骤S105，将添加标签的未标记样本作为第一样本集合。经过上述步骤S101至S104之后，某些未标记样本与某些标记样本可能具有相同的标签，这些未标记样本添加了对应标记样本的标签，则将这些添加标签的未标记样本作为第一样本集合。例如，第一样本集合Wi＝{(Xi,X1)，(Xi,X2)，(Xi,X3)…(Xi,X60)}，X1至X60均为与Xi满足相似度关系的未标记样本，X1至X60添加Xi的标签，组成第一样本集合Wi。其他未标记样本可以与其他标记样本满足相似度关系，组成第一样本集合，只要是通过步骤S100添加新标签的未标记样本组成的集合即为第一样本集合，这里不再例举。

步骤S200，根据标记样本建立第二样本集合，具体为：

提取标记样本的特征，根据标记样本的标签和提取的标记样本的特征，生成第二样本集合。也就是将标记样本作为第二样本集合。

步骤S300，将第一样本集合和第二样本集合合并，得到第三样本集合，具体为：

提取标记样本的特征和未标记样本的特征，根据标记样本的标签和未标记样本添加的标签，以及提取的标记样本和未标记样本的特征，生成第三样本集合。

步骤S400，根据第一样本集合中样本的特征和标签之间的关系、第二样本集合中样本的特征和标签之间的关系、第三样本集合中样本的特征和标签之间的关系，生成与第一样本集合对应的第一映射函数、与第二样本集合对应的第二映射函数、与第三样本集合对应的第三映射函数，具体为：

利用第一样本集合中样本的特征和标签之间的关系、第二样本集合中样本的特征和标签之间的关系、第三样本集合中样本的特征和标签之间的关系，通过监督学习的方式训练具有可解释性的模型，分别生成与第一样本集合对应的第一具有可解释性的模型、与第二样本集合对应的第二具有可解释性的模型和与第三样本集合对应的第三具有可解释性的模型。在本实施例中，映射函数可以是具有可解释性的模型，还可以是其他有相应对应关系的方式。

映射函数(包括第一映射函数、第二映射函数和第三映射函数)为具有可解释性的模型，具有可解释性的模型可以是通过梯度提升树算法(GBDT)、极端梯度提升算法(XGBoost)等算法训练得到的机器学习模型。通过具有可解释性的模型可以得到这些模型的判断或者预测规则、模式、条件等，也就是说可以得到具有可解释性的模型的工作依据，根据什么规则或者模式来对输入信息进行处理的。当然这些规则或者条件等正常情况下是以自然人看不能直接看懂的方式存在的，还包括对这些规则等进行提取的步骤，相关人员需要得知其规则、模式或者条件等就需要对这些规则等进行提取，在将这些规则等提取之后转化为相关人员可以直接得知的信息。所以本实施例中使用具有可以解释性的模型还可以解决相关人员不能得知现有技术中的不具有可解释性的模型的规则的问题。

例如，有一笔交易，对该笔交易使用具有可以解释性的模型对其进行判断，可解释性的模型可以对这笔交易间判断或者预测，当对方需要得知可解释的模型为什么这么判断的时候或者这么判断或者预测的依据时，通过提取具有可解释性的模型的预测规则可以得知具有可解释性的模型的判断规则，可以让对方得知是怎么预测的。

步骤S500，根据业务需求，通过第一映射函数对输入信息进行预测，或通过第一映射函数和第二映射函数对输入信息进行预测，或通过第三映射函数对输入信息进行预测，具体包括：

通过第一具有可解释性的模型对输入信息进行预测；或

通过第二具有可解释性的模型对输入信息进行预测，将通过第一具有可解释性的模型对输入信息进行预测的结果，与通过第二具有可解释性的模型对输入信息进行预测的结果取交集。或

将通过第一具有可解释性的模型对输入信息进行预测的结果，与通过第二具有可解释性的模型对输入信息进行预测的结果取并集。或

通过第三具有可解释性的模型对输入信息进行预测。

上述方法实现了信息的处理，解决了现有技术中监督学习和无监督学习存在的问题，达到了相应的技术效果，本说明书实施例还提供一种实现上述方法的系统，可以通过该系统实现上述方法。该系统可以解决与上述方法同样的技术问题，可以达到与上述方法相同的技术效果，参考图3。

该系统包括：

第一样本建立模块1，根据已有样本中带标签的标记样本和不带标签的未标记样本建立第一样本集合，所述第一样本集合中的样本为带有标签的样本；

第二样本集合建立模块2，根据标记样本建立第二样本集合；

第三样本集合建立模块3，将第一样本集合和第二样本集合合并，得到第三样本集合；

映射函数生成模块4，利用第一样本集合中样本的特征和标签之间的关系、第二样本集合中样本的特征和标签之间的关系、第三样本集合中样本的特征和标签之间的关系，生成与第一样本集合对应的第一映射函数、与第二样本集合对应的第二映射函数、与第三样本集合对应的第三映射函数；

信息预测模块5，根据业务需求，通过第一映射函数对输入信息进行预测，或通过第一映射函数和第二映射函数对输入信息进行预测，或通过第三映射函数对输入信息进行预测。

其中，如图4所示，第一样本建立模块1包括：

预处理子模块101，对所述标记样本和未标记样本进行预处理；所述标记样本和未标记样本均包括输入文本信息和用户属性信息；

特征生成子模块102，根据所述预处理的结果生成标记样本对应的特征集合和未标记样本对应的特征集合；

第一相似度计算子模块103，计算所述未标记样本对应的特征与标记样本对应的特征的相似度；

标签添加子模块104，根据所述相似度将所述标记样本的标签添加到所述未标记样本中，作为所述未标记样本的标签；

第一样本集合生成子模块105，将添加标签的未标记样本作为第一样本集合。

预处理子模块101包括：

文本处理单元(图中未示出)，对所述标记样本和未标记样本中的输入文本信息进行文本处理，所述文本处理包括对输入文本信息进行统一字符处理、分词处理、称谓词识别、词性标注、语种识别；

数值化处理单元(图中未示出)，对所述标记样本和未标记样本中用户属性信息做数值化处理。

第一样本建立模块1包括：第二相似度计算子模块106，当所述标记样本和未标记样本中的输入文本信息中包括集外词时，计算所述集外词的编辑距离进而计算所述未标记样本与标记样本的相似度。

第一样本建立模块1还包括预设值设置模块107，设置相似度阈值和满足所述相似度阈值的未标记样本数量。

标签添加子模块104包括：

第一判断单元(图中未示)，选择满足所述相似度阈值的未标记样本数量的未标记样本，判断所述相似度是否大于所述相似度阈值，并且所述未标记样本是否与所述标记样本一一对应；

第一标签添加单元(图中未示)，当所述相似度大于所述相似度阈值，并且所述未标记样本与所述标记样本一一对应时，将所述标记样本的标签添加到所述未标记样本中，作为所述未标记样本的标签；

第二标签添加单元(图中未示)，当所述相似度大于所述相似度阈值，并且所述未标记样本与多个所述标记样本对应时，根据所述未标记样本对应的多个所述标记样本对所述未标记样本进行标签的添加。

第二标签添加单元包括：

第二判断子单元(图中未示)，判断所述未标记样本对应的多个所述标记样本的标签是否一致；

标签添加子单元(图中未示)，当所述未标记样本对应的多个所述标记样本的标签一致时，将多个所述标记样本的标签添加到所述未标记样本中，作为所述未标记样本的标签；否则，不对所述未标记样本添加标签。

第二样本集合建立模块2包括：

第一特征提取子模块(图中未示)，提取所述标记样本的特征；

第二样本生成子模块(图中未示)，根据所述标记样本的标签和提取的所述标记样本的特征，生成第二样本集合。

第三样本集合建立模块3包括：

第二特征提取子模块(图中未示)，提取所述标记样本的特征和未标记样本的特征；

第三样本生成子模块(图中未示)，根据所述标记样本的标签和未标记样本添加的标签，以及提取的所述标记样本和未标记样本的特征，生成第三样本集合。

映射函数生成模块4配置为：

利用所述第一样本集合中样本的特征和标签之间的关系、所述第二样本集合中样本的特征和标签之间的关系、所述第三样本集合中样本的特征和标签之间的关系，通过监督学习的方式训练具有可解释性的模型，分别生成与第一样本集合对应的第一具有可解释性的模型、与第二样本集合对应的第二具有可解释性的模型和与第三样本集合对应的第三具有可解释性的模型。

信息预测模块5包括：

第一信息预测子模块(图中未示)，通过所述第一具有可解释性的模型对输入信息进行预测。

第二信息预测子模块(图中未示)，通过所述第二具有可解释性的模型对输入信息进行预测。

第三信息预测子模块(图中未示)，将通过所述第一具有可解释性的模型对输入信息进行预测的结果，与通过所述第二具有可解释性的模型对输入信息进行预测的结果取交集。

第四信息预测子模块(图中未示)，将通过所述第一具有可解释性的模型对输入信息进行预测的结果，与通过所述第二具有可解释性的模型对输入信息进行预测的结果取并集。

第五信息预测子模块(图中未示)，通过所述第三具有可解释性的模型对输入信息进行预测。

本说明书实施例还提供了一种电子设备，包括：一个以上存储器和一个以上处理器。其中，

存储器(图中未示出)，用于存储程序指令，存储器可以是短暂存储或持久存储。

处理器(图中未示出)，用于执行所述程序指令，以实现本技术方案中对信息进行预测的方法。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上，仅为本发明说明书的一个或多个实施例较佳的具体实施方式，但发明说明书的一个或多个实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明说明书的一个或多个实施例揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明说明书的一个或多个实施例的保护范围之内。因此，本发明说明书的一个或多个实施例的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种信息的预测方法，包括：

根据所述标记样本建立第二样本集合；

根据所述第一样本集合中样本的特征和标签之间的关系、所述第二样本集合中样本的特征和标签之间的关系、所述第三样本集合中样本的特征和标签之间的关系，生成与所述第一样本集合对应的第一映射函数、与所述第二样本集合对应的第二映射函数、与所述第三样本集合对应的第三映射函数；

2.根据权利要求1所述的预测方法，所述根据已有样本中带标签的标记样本和不带标签的未标记样本建立第一样本集合，具体包括：

对所述标记样本和未标记样本进行预处理；

将添加标签的未标记样本作为第一样本集合。

3.根据权利要求2所述的预测方法，

所述标记样本和未标记样本均包括输入文本信息和用户属性信息。

4.根据权利要求3所述的预测方法，对所述标记样本和未标记样本进行预处理，具体包括：

5.根据权利要求4所述的预测方法，根据所述预处理的结果生成标记样本对应的特征集合和未标记样本对应的特征集合具体为：

6.根据权利要求5所述的预测方法，计算所述未标记样本对应的特征与标记样本对应的特征的相似度，具体包括：

7.根据权利要求6所述的预测方法，计算所述未标记样本对应的特征与标记样本对应的特征的相似度的计算方法具体为：计算所述未标记样本对应的特征与标记样本对应的特征之间的余弦距离得到两者的相似度。

8.根据权利要求4所述的预测方法，当所述标记样本和未标记样本中的输入文本信息和/或用户属性信息中包括集外词时，计算所述集外词的编辑距离进而计算所述未标记样本与标记样本的相似度。

9.根据权利要求7或8所述的预测方法，在计算所述标记样本对应的特征与未标记样本对应的特征的相似度之前，还包括：

设置相似度阈值和需要选择的相似度的范围。

10.根据权利要求9所述的预测方法，根据所述相似度将所述标记样本的标签添加到所述未标记样本中，作为所述未标记样本的标签，具体为：

当所述相似度大于所述相似度阈值和所述相似度在需要选择的相似度的范围之内，并且所述未标记样本与所述标记样本一一对应时，将所述标记样本的标签添加到所述未标记样本中，作为所述未标记样本的标签；和/或，

当所述相似度大于所述相似度阈值和所述相似度在需要选择的相似度的范围之内，并且所述未标记样本与多个所述标记样本对应时，根据所述未标记样本对应的多个所述标记样本对所述未标记样本进行标签的添加。

11.根据权利要求10所述的预测方法，根据所述未标记样本对应的多个所述标记样本对所述未标记样本进行标签的添加，具体为：

否则，不对所述未标记样本添加标签。

12.根据权利要求1所述的预测方法，

根据所述标记样本建立第二样本集合，具体为：

13.根据权利要求1所述的预测方法，利用所述第一样本集合中样本的特征和标签之间的关系、所述第二样本集合中样本的特征和标签之间的关系、所述第三样本集合中样本的特征和标签之间的关系，生成与所述第一样本集合对应的第一映射函数、与所述第二样本集合对应的第二映射函数、与所述第三样本集合对应的第三映射函数，具体为：

14.根据权利要求13所述的预测方法，根据业务需求，通过所述第一映射函数对输入信息进行预测，或通过所述第一映射函数和第二映射函数对输入信息进行预测，或通过所述第三映射函数对输入信息进行预测，具体包括：

通过所述第一具有可解释性的模型对输入信息进行预测；或

将通过所述第一具有可解释性的模型对输入信息进行预测的结果，与通过所述第二具有可解释性的模型对输入信息进预测的结果取并集；或

通过所述第三具有可解释性的模型对输入信息进行预测。

15.一种信息的预测系统，包括：

映射函数生成模块，利用所述第一样本集合中样本的特征和标签之间的关系、所述第二样本集合中样本的特征和标签之间的关系、所述第三样本集合中样本的特征和标签之间的关系，生成与第一样本集合对应的第一映射函数、与第二样本集合对应的第二映射函数、与第三样本集合对应的第三映射函数；

16.根据权利要求15所述的预测系统，所述第一样本建立模块包括：

17.根据权利要求16所述的预测系统，所述预处理子模块包括：

18.根据权利要求17所述的预测系统，所述第一样本建立模块包括：第二相似度计算子模块，当所述标记样本和未标记样本中的输入文本信息和/或用户属性信息中包括集外词时，计算所述集外词的编辑距离进而计算所述未标记样本与标记样本的相似度。

19.根据权利要求18所述的预测系统，所述第一样本建立模块还包括预设值设置模块，设置相似度阈值和需要选择的相似度的范围。

20.根据权利要求19所述的预测系统，所述标签添加子模块包括：

第一标签添加单元，当所述相似度大于所述相似度阈值和所述相似度是否在需要选择的相似度的范围之内，并且所述未标记样本与所述标记样本一一对应时，将所述标记样本的标签添加到所述未标记样本中，作为所述未标记样本的标签；和/或，

第二标签添加单元，当所述相似度大于所述相似度阈值和所述相似度是否在需要选择的相似度的范围之内，并且所述未标记样本与多个所述标记样本对应时，根据所述未标记样本对应的多个所述标记样本对所述未标记样本进行标签的添加。

21.根据权利要求20所述的预测系统，所述第二标签添加单元包括：

否则，不对所述未标记样本添加标签。

22.根据权利要求21所述的预测系统，所述第二样本集合建立模块包括：

第一特征提取子模块，提取所述标记样本的特征；

23.根据权利要求22所述的预测系统，所述第三样本集合建立模块包括：

24.根据权利要求23所述的预测系统，所述映射函数生成模块配置为：

25.根据权利要求24所述的预测系统，所述信息预测模块包括：

26.一种电子设备，包括：

存储器，用于存储程序指令；

处理器，用于执行所述程序指令，以实现权利要求1至14中任一项所述的信息的预测方法。