CN110428015A

CN110428015A - 一种模型的训练方法及相关设备

Info

Publication number: CN110428015A
Application number: CN201910728774.9A
Authority: CN
Inventors: 甘伟; 陈联忠; 金伟
Original assignee: Beijing Jiahesen Health Technology Co Ltd
Current assignee: Beijing Jiahesen Health Technology Co Ltd
Priority date: 2019-08-07
Filing date: 2019-08-07
Publication date: 2019-11-08

Abstract

本申请实施例提供了一种模型的训练方法及相关设备，用于提高模型的准确率以及减少模型训练的时间。该方法包括：步骤1、确定N个预测主题；步骤2、对N个预测主题对应的数据进行关键词标注，得到N组标注关键词；步骤3、对N组标注关键词进行预处理，得到N个关键数据集；步骤4、通过至少一个模型算法分别对N个关键数据集进行训练，得到N个预测主题分别对应的至少一个模型；步骤5、判断至少一个模型的预测准确率是否均达到第一预设值；步骤6、若否，则重复执行步骤2至步骤5、直至至少一个模型的预测准确率均达到第一预设值。

Description

一种模型的训练方法及相关设备

技术领域

本申请涉及模型训练领域，尤其涉及一种模型的训练方法及相关设备。

背景技术

随着网络的进步，社会各界科研人员已逐步意识到数据应用的重要性，开始挖掘数据潜在的海量应用价值。功能强大的数据挖掘工具，可以提升数据结果的可信度和减少研究人员的难度，提高研究效率。R既是一种编程语言，又是一种集多种算法和功能的软件，具有开源，免费和非商业化的特征，该软件集成了大量常用的数据挖掘和分析算法，包括分类算法，回归算法，神经网络等等，用户可以根据需求调整算法参数，还包括可视化分析功能，能满足绝大部分的分析需求，还可以根据特定的业务需求，创新编写新算法，因此可将其封装集成用于模型的训练。

现有模型训练过程中的训练数据有限，且训练数据过多的依赖于人工处理，另外，在模型优化过程中，需要反复执行该过程。其带来的关键问题如下：

现有的数据存在获取周期长，变量有限、干扰因素多等缺陷，传统研究中一般使用统计学方法，多数是研究单一因素对研究目的影响，较少解释多因素之间的关联。另外，预测模型需要不断进行调优，若后期结果偏离预期，则需要扩大样本量或增加新关键词输入，而这就需要不断反复执行以上过程，延长整个研究实施产出周期。

发明内容

本申请提供了一种模型的训练方法及相关设备，可以提高模型的准确率，减少模型训练的时间。

本申请实施例第一方面提供一种模型的训练方法，所述方法包括：

步骤1、确定N个预测主题，其中，N为大于或等于1的正整数；

步骤2、对所述N个预测主题对应的数据进行关键词标注，得到N组标注关键词，所述N个预测主题与所述N组标注关键词相对应；

步骤3、对所述N组标注关键词进行预处理，得到N个关键数据集；

步骤4、通过至少一个模型算法分别对所述N个关键数据集进行训练，得到所述N个预测主题分别对应的至少一个模型；

步骤5、判断所述至少一个模型的预测准确率是否均达到第一预设值；

步骤6、若否，则重复执行步骤2至步骤5、直至所述至少一个模型的预测准确率均达到所述第一预设值。

可选地，所述对所述N组标注关键词进行预处理，得到N个关键数据集包括：

将所述N组标注关键词进行数据整合，得到N个整合数据集；

将所述N个整合数据集进行数据清洗，得到N个清洗后的数据集；

对所述N个清洗后的数据集进行数据优化处理，以得到所述N个关键数据集。

可选地，所述优化处理包括数据缺失值填补、数据降维和/或数据平衡，所述对所述N个清洗后的数据集进行优化处理，以得到所述N个关键数据集包括：

通过多重填补法、回归填补法和/或期望最大法对所述N个清洗后的数据集进行数据缺失值填补，得到所述N个关键数据集；

和/或，

提取所述N个清洗后的数据集对应的特征根中大于第二预设值的第一因子以及累计贡献率大于第三预设值的因子，得到所述N个关键数据集，或，通过逻辑回归法对所述N个清洗后的数据集进行数据降维得到所述N个关键数据集；

和/或，

通过SMOTE算法平衡所述N个清洗后的数据集，以修正所述N个清洗后的数据集中的不平衡数据，得到所述N个关键数据集。

可选地，所述判断所述至少一个模型的预测准确率是否均达到第一预设值包括：

判断所述至少一个模型的准确度、灵敏度、特异度、召回率、F值、ROC曲线面积和/或Kappa系数是否达到其对应的预设值；

若所述至少一个模型的准确度、灵敏度、特异度、召回率、F值、ROC曲线面积和/或Kappa系数达到其对应的预设值，则确定至少一个模型的预测准确率达到所述第一预设值；

若所述至少一个模型的准确度、灵敏度、特异度、召回率、F值、ROC曲线面积和/或Kappa系数未达到其对应的预设值，则确定所述至少一个模型的预测准确率未达到所述第一预设值。

可选地，所述至少一个模型算法包括决策树、逻辑回归以及神经网络算法。

本申请实施例第二方面提供了一种模型的训练装置，包括：

确定单元，用于执行步骤1、确定N个预测主题，其中，N为大于或等于1的正整数；

标注单元，用于执行步骤2、对所述N个预测主题对应的数据进行关键词标注，得到N组标注关键词，所述N个预测主题与所述N组标注关键词相对应；

预处理单元，用于执行步骤3、对所述N组标注关键词进行预处理，得到N个关键数据集；

训练单元，用于执行步骤4、通过至少一个模型算法分别对所述N个关键数据集进行训练，得到所述N个预测主题分别对应的至少一个模型；

判断单元，用于执行步骤5、判断所述至少一个模型的预测准确率是否均达到第一预设值；

优化单元，用于执行步骤6、若否，则重复执行步骤2至步骤5、直至所述至少一个模型的预测准确率均达到所述第一预设值。

可选地，所述标注单元具体用于：

将所述N组标注关键词进行数据整合，得到N个整合数据集；

可选地，所述优化处理包括数据缺失值填补、数据降维和/或数据平衡，所述标注单元对所述N个清洗后的数据集进行优化处理，以得到所述N个关键数据集包括：

和/或，

可选地，所述判断单元具体用于：

本申请实施例第四方面提供了一种计算机装置，其包括至少一个连接的处理器、存储器和收发器，其中，所述存储器用于存储程序代码，所述处理器用于调用所述存储器中的程序代码来执行上述各方面所述的操作。

本申请实施例第五方面提供了一种计算机存储介质，其包括指令，当其在计算机上运行时，使得计算机执行上述各方面所述的操作。

综上所述，可以看出，本申请提供的实施例中，相对于现有技术来说，首先，在训练数据的获取以及预处理的过程中不需要复杂的人工处理，其次采用多种模型进行训练，得到每个预测主题对应的多个预测模型，根据不同的预测主题选择更加优秀的训练模型，最后，当未达到预设的模型预测效果时，仅仅需要调整关键词标注即可，而无需全部重新获取训练数据。本申请提供的实施例可以提高模型的准确率，减少模型训练的时间。

附图说明

图1为本申请实施例提供的模型的训练方法的流程示意图；

图2为本申请实施例提供的模型的训练装置的虚拟结构示意图；

图3为本申请实施例提供的服务器的硬件结构示意图。

具体实施方式

本申请供了一种模型的训练方法及相关设备，可以提高模型的准确率，减少模型训练的时间。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本申请中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。

目前来说，在训练模型的过程中，存在的问题是，现有的训练数据有限，且训练数据依赖于人工处理，在模型的优化的过程中，需要反复执行该过程，这样就会导致现有的训练数据存在获取周期长，变量有限，干扰因素多等缺陷，传统研究中一般使用统计学方法，多数是研究单一因素对研究目的影响，较少解释多因素之间的关键，另外训练好的模型需要不断的进行调试，若后期结果偏离预期，则需要扩大样本量或增加新关键词的输入，而这就需要不断反复执行获取训练数据以及通过训练数据训练模型的过程，延长整个研究实施产出周期。

有鉴于此，本申请结合现有数据格式，以决策支持、数据挖掘和知识探索为理论指导，对全量数据进行重新整合和梳理，构建全量大数据智能疾病预测的策略，依托数据清洗，数据集成、缺失值处理、数据降维、模型搭建与评价等，探索海量数据中隐藏的知识，并将机器学习方法中的决策树，人工神经网络，Logistic回归方法集成应用于预测模型的搭建中，通过模型评价准则智能选择出最优的预测模型。

首先对本申请中涉及的一些算法以及方法进行说明：

决策树：是运用于分类的一种树结构，其决策过程需要从根节点开始，待测数据与决策树中的特征节点进行比较，并按照比较结果选择选择下一比较分支，直到叶子节点作为最终的决策结果，并利用剪枝优化模型。

逻辑(logistic)回归：logistic回归是一种广义线性回归，通过函数L将w*x+b对应一个隐状态p，p＝L(w*x+b)，然后根据p与1-p的大小决定因变量的值。如果L是logistic函数，就是logistic回归，如果L是多项式函数就是多项式回归，因变量为二分类的logistic回归更为常用。

人工神经网络：是一种按照误差逆向传播算法训练的多层前馈神经网络，是目前应用最广泛的神经网络，包括信号的前向传播和误差的反向传播两个过程，一般由输入层，隐含层和输出层构成。本申请在训练模型的过程中可以选择人工神经网络中的RBFNetwork算法，即径向基函数神经网络算法，构建预测模型。

主成分分析法：通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。分析目标数据集中各属性的特征根和贡献率，分别提取符合要求的因子，降低所研究的数据空间的维数。

多重填补法：通常有三个步骤：第一、为每个空值产生一套可能的填补值，这些值反映了无响应模型的不确定性；每个值都被用来填补数据集中的缺失值，产生若干个完整数据集合。第二、每个填补数据集合都用针对完整数据集的统计方法进行统计分析。第三、对来自各个填补数据集的结果进行综合，产生最终的填补值。

期望最大化法：该法的主要特征是每一次迭代由两步组成：第一步利用数据的已有信息，求缺失数据的期望值，称为E步；第二步假定缺失值被替代的基础上做出最大似然估计，称为M步；如此迭代直至收敛，并以最终缺失数据的期望值作为其估计值。

回归填补法：基于完整的数据集，建立回归方程。对于包含空值的对象，将已知属性值代入方程来估计未知属性值，以此估计值来进行填充。当变量不是线性相关或预测变量高度相关时会导致有偏差的估计。

下面从模型的训练装置的角度对本申请实施例提供的模型的训练方法进行说明，该模型的训练装置可以为服务器也可以为服务器中的服务单元，具体不做限定。

请参阅图1，图1为本申请实施例提供的模型的训练方法的流程示意图，包括：

101、确定N个预测主题。

本实施例中，模型的训练装置可以首先确定N个预测主题，其中，N为大于或等于1的正整数。也就是说，在开始训练之前，模型的训练装置可以首先确定训练的模型的应用场景，例如预测天气的状况、预测天气的温度变化、预测某个植物下一个生长周期所需要的养料或者预测某项手术后的并发症等等。

102、对N个预测主题对应的数据进行关键词标注，得到N组标注关键词。

本实施例中，模型的训练装置可以首先获取N个预测主题对应的数据，之后对N个预测主题对应的数据进行关键词标注，得到N组标注关键词，其中，该N个预测主题与N组标注关键词相对应，也就是说，一个预测主题对应一组标注关键词。该关键词标注指的是一个预测主题所含有的所有字段(也可以称为变量或者特征)，例如天气的状况的描述可能有3000个字段，但对于每个应用场景来说，可能只需要这3000个字段中的1000个，还有一些需要二次计算的变量，比如预测天气突变的概率，则跟上一次天气突变有紧密的联系，这个时候，在这3000个中没有是否发生天气突变的字段，此时需要通过一定的逻辑判断规则，生成新的变量。这1000个字段加上二次生成的字段，由后台工作人员进行选择存储，这个过程就是标注。

103、对N组标注关键词进行预处理，得到N个关键数据集。

本实施例中，模型的训练装置在得到N组标注关键词之后，可以对N组标注关键词进行预处理，得到N个关键数据集。具体的：

将N组标注关键词进行数据整合，得到N个整合数据集；

将N个整合数据集进行数据清洗，得到N个清洗后的整合数据集；

对N个清洗后的数据集进行数据优化处理，以得到N个关键数据集。

也就是说，首先，由于在获取N个预测主题对应的数据时，可能是通过不同的路径(也即通过不同的信息系统)获取得到的数据，不同路径获取的数据可能存在一些数据结构上的差异，因此需要对N组标注关键词进行数据整合，也就是将多个路径中的字段合并到一起，这个过程可以用R里面的merge函数；其次，在得到N个整合数据集之后，可以对N个整合数据集进行数据清洗，数据清洗的过程一般包括：剔除、逻辑运算、格式转换、二次计算等等，剔除一般采用逻辑可查的方法，撰写逻辑判断规则：例如天气的温度不是数字格式或者天气的温度大于100度，天气的温度或湿度为负数等等，将这些异常的数据筛选出来删除；逻辑运算：是指按照一定的逻辑规则，生成新的字段；二次计算：一般天气状况中会有温差，若没有，可以根据一定的数学计算出来；格式转换：数据库中包含来自不同路径的数据：例如对于同一个天气指数，单位不同，则需要将格式转换为相同，做到归一。最后，在对数据进行清洗之后，可以对N个清洗后的数据集进行数据优化处理，得到N个关键数据集。

下面对如何对N个清洗后的数据集进行数据优化处理进行说明：

该优化处理包括数据缺失值填补、数据降维和/或数据平衡，也就是说，可以根据实际需求，对N个清洗后的数据集进行缺失值填补、数据降维和/或数据平衡的处理，具体如下：

对N个清洗后的数据集进行优化处理，以得到N个关键数据集包括：

通过多重填补法、回归填补法和/或期望最大法对N个清洗后的数据集进行数据缺失值填补，得到N个关键数据集；

和/或，

提取N个清洗后的数据集对应的特征根中大于第二预设值的第一因子以及累计贡献率大于第三预设值的因子，得到N个关键数据集，或，通过逻辑回归法对N个清洗后的数据集进行数据降维得到N个关键数据集；

和/或，

通过SMOTE算法平衡N个清洗后的数据集，以修正N个清洗后的数据集中的不平衡数据，得到所述N个关键数据集。

也就是说，在需要对N个清洗后的数据集进行缺失值填补时，可以采用多重填补法、回归填补法和/或期望最大法对N个清洗后的数据集进行缺失值填补，得到N个关键数据集。下面对多重填补法、回归填补法和/或期望最大法进行说明：

多重填补法：

通常是估计出待插补的值，然后再加上不同的噪声，形成多组可选插补值。根据某种选择依据，选取最合适的插补值。对于单调缺失的模式，有多种方法可供选择，一般连续型变量采用预测均数匹配(PMM)，二分类变量采用Logistic回归，无序多分类变量采用多项Logistic回归，有序多分类采用有序Logistic回归，R采用mice函数，返回没有缺失值的数据集。

回归填补法：

基于完整的数据集，建立回归方程，对于包含空值的对象，将已知属性值代入方程来估计未知属性值，以此估计值来进行填充。当变量不是线性相关或预测变量高度相关时会导致有偏差的估计，具体操作如下：

1、缺失值所在的变量，作为因变量Y，其他变量作为自变量X，构建多元线性回归和逻辑回归(根据因变量的特征选取)，R中采用lm和glm函数。

2、获取模型后，带入各个自变量对应的属性值，就能得到缺失值。

期望最大化法(EM)：

该法的主要特征是每一次迭代由两步组成：第一步利用数据的已有信息，求缺失数据的期望值，称为E步；第二步假定缺失值被替代的基础上做出最大似然估计，称为M步；如此迭代直至收敛，并以最终缺失数据的期望值作为其估计值。该方法适用于大样本。R中采用的函数是amelia，返回没有缺失值的数据集。

需要说明的是，可以通过上述三种缺失值填补的方法综合进行填补，也可以单独选在一个进行填补，具体不做限定，只要能对N个清洗后的数据集中每个数据集的缺失值进行填补即可。

当需要对N个清洗后的数据集进行降维时，可以运用主成分分析法或者逻辑回归法进行数据降维，得到N个关键数据集，下面对主成分分析法进行说明，具体操作如下：

假设N个清洗后的数据集中每个清洗后的数据中共计含有n个变量，先做KMO(Kaiser-Meyer-Olkin)检验，得到KMO值大于0.5，说明这n个变量间具有一定的强相关性，适合做主成分分析，再做Bartlett’s球形检验，得到p，若p<0.01，说明变量间并不是相互独立的，而是具有一定的相关性，可以进一步做因子分析。

利用R中princomp函数和summary函数，得到因子载荷矩阵和主成分贡献率，得到个因子的特征根，查看因子特征根大于第二预设值(例如1)的主成分，特征根的大小代表了特征变量对整个数据集(也即每个清洗后的数据)的贡献度，由n个主成分并计算出大于第二预设值的主成分的累计贡献率。

若累计贡献率没有达到第三预设值(例如85％)，则从整体数据集(N个清洗后的数据集)的累计贡献率角度出发，提取累计贡献率大于第三预设值的属性，做为数据集的主成分，此时得到的主成分是m个，一般m会大于n，此时完成高维的降维处理。

当需要对N个清洗后的数据集进行数据平衡时，可以通过SMOTE算法平衡N个清洗后的数据集中的每个数据集，R中采用ubBalance函数，函数中的type＝’ubSMOTE’即可，原理是通过欧氏距离计算并人工合成新的少量类变量，添加到每个数据集中，从而达到扩充少数类变量的目的。

需要说明的是，上面分别对数据缺失值填补、数据降维、数据平衡进行说明，在对N个清洗后的数据集进行优化处理时，可以根据数据的实际情况选用优化方式进行优化，例如数据由缺失值时，选择缺失值填补，需要数据降维时，选择数据降维，数据不平衡时，选择数据降维，具体不做限定。

104、通过至少一个模型算法分别对N个关键数据集进行训练，得到N个预测主题分别对应的至少一个模型。

本实施例中，可以通过决策树、逻辑回归以及神经网络算法分别对N个关键数据集进行训练，得到N个预测主题分别对应的至少一个模型，例如通过决策树对N个关键数据集进行训练，得到N个决策树预测模型，通过逻辑回归对N个关键数据集进行训练，得到N个逻辑回归预测模型，通过神经网络算法对N个关键数据集进行训练，得到神经网络预测模型，也就是说，N个预测主题中的每个预测主题都对应了至少一个模型。

需要说明的是，为了支持多种场景多个变量的预测，只选某一种预测模型是不够的，只能通过多种模型的对比选择出最优的模型，才是合理的。因此，本实施例中，通过搭建3种预测模型，包括传统的统计模型逻辑回归和机器学习的模型，决策树以及神经网络来训练模型，当然也还可以包括其他种类的模型算法来训练模型，此处仅以3种为例进行说明，并不代表对其的限定。

1、决策树预测模型的训练，其又名为分类树，是自顶向下递归得到方式构建的树状结构，选用的是CART算法，按照算法进行计算，将结果逐层输出分支，直至达到末端输出的叶节点，并将叶节点存放的类别作为决策结果。之后根据十折交叉验证的误差，找出估计误差最小时的cp值，进行决策树剪枝，得到训练好的N个决策树预测模型，R中采用rpart函数。

2、逻辑回归预测模型的训练，逻辑回归模型是一种分类模型，用条件概率分布的形式表示P(Y|X)，根据给定的训练集(N个关键数据集)，求参数w和b，其损失函数可以用最大似然函数进行估计，迭代估计出参数后，所得到的模型为训练出来的N个逻辑回归预测模型，R中采用glm函数。

3、神经网络预测模型的训练：采用人工神经网络中的RBF Network算法，该算法是具有唯一逼近、训练简洁、学习收敛速度快等良好性能的前馈神经网络，其中，隐藏层的激活函数采用的是高斯函数，输出层含有多个线性神经元(激活函数为线性函数)，最终的输出是隐藏层神经元输出的线性加权和。为使目标函数误差最小化，使用梯度下降法计算得到RBF中心、方差及输出权值，得到训练好的N个神经网络预测模型模型，R中采用nnet函数。

105、判断至少一个模型的预测准确率是否达到第一预设值，若否，则执行步骤106，若是，则执行步骤107。

本实施例中，在将至少一个模型训练完成之后，可以判断至少一个模型的预测准确率是否达到第一预设值，具体的，可以判断至少一个模型的准确度、灵敏度、特异度、召回率、F值、ROC曲线面积和/或Kappa系数是否达到其对应的预设值；若至少一个模型的准确度、灵敏度、特异度、召回率、F值、ROC曲线面积和/或Kappa系数达到其对应的预设值，则确定至少一个模型的预测准确率达到第一预设值，执行步骤107；若至少一个模型的准确度、灵敏度、特异度、召回率、F值、ROC曲线面积和/或Kappa系数未达到其对应的预设值，则确定至少一个模型的预测准确率未达到第一预设值，执行步骤步骤106。

也就是说，可以提前设置模型的准确度、灵敏度、特异度、召回率、F值、ROC曲线面积以及Kappa系数对应的各自的预设值，之后进行判断来确定至少一个模型中的每个模型的预测准确率是否均达到第一预设值。

106、当至少一个模型的预测准确率未达到第一预设值时，重复执行步骤102至步骤105，直至至少一个模型的预测准确率均达到第一预设值。

本实施例中，当至少一个模型的预测准确率未达到第一预设值时，则返回调整输入的关键词，具体的可以通过查找文献，纳入更多更重要的字段，比如1000个中漏掉了关键的字段，之后对关键词进行标注，重复执行上述步骤102至步骤105直至达到第一预设值为止。

107、执行其他操作。

本实施例中，当确定至少一个模型的预测准确率均未达到第一预设值时，可以接收用户的操作指令，并根据用户的操作指令对预测主题进行预测，得到预测结果，并根据预测结果执行相应的操作。

上面从模型的训练方法的角度对本申请实施例进行描述，下面从模型的训练装置的角度对本申请实施例进行描述。

请参阅图2，图2为本申请实施例中模型的训练装置的虚拟结构示意图，该模型的训练装置包括：

确定单元201，用于执行步骤1、确定N个预测主题，其中，N为大于或等于1的正整数；

标注单元202，用于执行步骤2、对所述N个预测主题对应的数据进行关键词标注，得到N组标注关键词，所述N个预测主题与所述N组标注关键词相对应；

预处理单元203，用于执行步骤3、对所述N组标注关键词进行预处理，得到N个关键数据集；

训练单元204，用于执行步骤4、通过至少一个模型算法分别对所述N个关键数据集进行训练，得到所述N个预测主题分别对应的至少一个模型；

判断单元205，用于执行步骤5、判断所述至少一个模型的预测准确率是否均达到第一预设值；

优化单元206，用于执行步骤6、若否，则重复执行步骤2至步骤5、直至所述至少一个模型的预测准确率均达到所述第一预设值。

可选地，所述标注单元202具体用于：

将所述N组标注关键词进行数据整合，得到N个整合数据集；

可选地，所述优化处理包括数据缺失值填补、数据降维和/或数据平衡，所述标注单元202对所述N个清洗后的数据集进行优化处理，以得到所述N个关键数据集包括：

和/或，

可选地，所述判断单元205具体用于：

上面从模块化功能实体的角度对本申请实施例中的模型的训练装置进行了描述，下面从硬件处理的角度分别对本申请实施例中的服务器进行描述。

图3是本发明实施例提供的一种服务器结构示意图，该服务器300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在服务器300上执行存储介质330中的一系列指令操作。

服务器300还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

上述实施例中由模型的训练装置所执行的步骤可以基于该图3所示的服务器结构。

本申请实施例还提供了一种计算机存储介质，其上存储有程序，该程序被处理器执行时实现所述模型的训练方法。

本申请实施例还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述模型的训练方法。

本申请实施例还提供了一种终端设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现上述所述模型的训练方法的步骤。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行上述所述模型的训练方法的步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种模型的训练方法，其特征在于，包括：

步骤1、确定N个预测主题，其中，N为大于或等于1的正整数；

2.根据权利要求1所述的方法，其特征在于，所述对所述N组标注关键词进行预处理，得到N个关键数据集包括：

将所述N组标注关键词进行数据整合，得到N个整合数据集；

3.根据权利要求2所述的方法，其特征在于，所述优化处理包括数据缺失值填补、数据降维和/或数据平衡，所述对所述N个清洗后的数据集进行优化处理，以得到所述N个关键数据集包括：

和/或，

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述判断所述至少一个模型的预测准确率是否均达到第一预设值包括：

若所述至少一个模型的准确度、灵敏度、特异度、召回率、F值、ROC曲线面积和/或Kappa系数达到其对应的预设值，则确定所述至少一个模型的预测准确率达到所述第一预设值；

5.根据权利要求1至3中任一项所述的方法，其特征在于，所述至少一个模型算法包括决策树、逻辑回归以及神经网络算法。

6.一种模型的训练装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述标注单元具体用于：

将所述N组标注关键词进行数据整合，得到N个整合数据集；

8.根据权利要求7所述的装置，其特征在于，所述优化处理包括数据缺失值填补、数据降维和/或数据平衡，所述标注单元对所述N个清洗后的数据集进行优化处理，以得到所述N个关键数据集包括：

和/或，

9.一种计算机装置，其特征在于，所述装置包括：

至少一个处理器、存储器和收发器；

其中，所述存储器用于存储程序代码，所述处理器用于调用所述存储器中存储的程序代码来执行如权利要求1-5中任一项所述的方法的步骤。

10.一种计算机存储介质，其特征在于，其包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-5中任一所述的方法的步骤。