CN114818972A

CN114818972A - 一种模型构建方法、装置及存储介质

Info

Publication number: CN114818972A
Application number: CN202210557414.9A
Authority: CN
Inventors: 不公告发明人
Original assignee: Beijing Real AI Technology Co Ltd
Current assignee: Beijing Real AI Technology Co Ltd
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2022-07-29

Abstract

本申请实施例涉及模型构建领域，并提供一种模型构建方法、装置及存储介质，对输入的初始数据进行联邦整合处理，对联邦整合处理后的初始数据进行筛选得到初筛数据，对初筛数据中各特征项的数据值进行特征转换得到转换特征数据，对转换特征数据中的特征项进行降维处理得到降维特征数据，根据降维特征数据进行神经网络建模得到目标模型。本方案通过对联邦整合后的初始数据进行筛选、对转换特征数据中的特征项进行降维处理，以减少特征项的数量，通过对初筛数据中各特征项的数据值进行特征转换，以减少特征项对应数据值的类型，通过减少数据规模以减少数据处理的工作量，可缩短建模时间，提高了通过联邦学习进行模型构建的效率。

Description

一种模型构建方法、装置及存储介质

技术领域

本申请实施例涉及模型构建技术领域，尤其涉及一种模型构建方法、装置及存储介质。

背景技术

联邦学习(Federated Learning)是一种新兴的人工智能基础技术，其设计目标是在合法合规的前提下，保障大数据交换时的信息安全且保护终端数据和个人数据隐私的前提下，在多参与方或多计算结点之间开展高效率的机器学习。联邦学习通过密码学编码技术，对传输的数据进行编码及解码等操作，实现了不泄露明文的前提下，用多方数据共同训练模型，实现了数据的可用不可见，保证了数据的安全性。

然而在联邦学习过程中，需要多方数据进行叠加整合以在模型训练过程中实现联邦学习，如对所输入的初始数据中特征不同、样本相同的数据进行特征叠加，对初始数据中特征相同、样本不同的数据进行样本量叠加，然而对多方数据进行叠加整合后，数据量急剧扩张，在对模型进行训练过程中需要耗费较长时间，增加了整个联邦学习流程的运行时间，导致联邦学习效率不高。

目前在CN202110677368.1这一专利中，公开了一种联邦学习中基于局部模型梯度的用户筛选方法、系统、设备及存储介质。当服务器接收到各个用户传输过来的局部模型梯度矩阵后，首先将各个用户的局部模型梯度矩阵按行或按列展开成一个向量，然后利用PCA(Principle Component Analysis，主成分分析)对向量进行降维，再利用DBSCAN(Density-Based Spatial Clustering of Applications with Noise，是一种基于密度的聚类算法)聚类方法进行聚类，得到聚类结果中数量最多的一类，再求得此类中所有降维局部模型梯度的几何中心点，最后根据每个用户的降维局部模型梯度与上述几何中心点的距离选择用户，选择离中心点最近的部分用户的梯度用来更新全局模型。该筛选方法能够有效筛选基于高质量数据计算的局部模型梯度，提高联邦学习系统的鲁棒性。然而该技术是基于局部模型的梯度矩阵进行降维并且聚类，目的是为了提高模型的鲁棒性，该技术的缺陷主要是增加了整个联邦学习流程的运行时间，整个建模流程执行结束后，又增添了两道工序，即降维和聚类来增加其鲁棒性，而无法减少学习时间以提高联邦学习效率。由此可见，目前的联邦学习中存在学习效率不高的问题。

发明内容

本申请实施例提供了一种模型构建方法、装置及存储介质，通过对联邦整合后的初始数据进行筛选、对转换特征数据中的特征项进行降维处理，以减少特征项的数量，通过对初筛数据中各特征项的数据值进行特征转换，以减少特征项对应数据值的类型，通过减少数据规模以减少数据处理的工作量，可缩短建模时间，提高了通过联邦学习进行模型构建的效率。

第一方面中，本申请实施例提供的一种模型构建方法，其中，所述方法包括：

对获取的初始数据进行联邦整合处理；所述初始数据从至少两个数据源方获取；所述初始数据为结构化的文字数据，所述初始数据包含样本的数据值及样本的标签，所述数据值与特征项对应；

对联邦整合处理后的所述初始数据进行筛选，得到初筛数据；所述初筛数据包含的特征项数量少于联邦整合处理后的所述初始数据中的特征项数量；

对所述初筛数据中各特征项的数据值进行特征转换，得到转换特征数据；

对所述转换特征数据中的特征项进行降维处理，得到降维特征数据；

根据所述降维特征数据进行神经网络建模，得到目标模型。

一种可能的设计中，所述对所述转换特征数据中的特征项进行降维处理，得到降维特征数据之后，所述根据所述降维特征数据进行神经网络建模之前，还包括：

对所述降维特征数据的样本进行聚类，得到多个样本类别；

从每一所述样本类别中选取预定比例的样本，得到缩减样本数量的降维特征数据。

按照样本类型对所述降维特征数据的样本进行聚类，得到多个候选样本集，所述候选样本集包括一种样本类别的样本；

分别计算各候选样本集中各样本的特征系数；

分别从各候选样本集中确定特征系数大于预设值的目标样本，得到目标样本集，所述目标样本集包括的目标样本数量少于所述降维特征数据中的样本数量。

一种可能的设计中，所述对联邦整合处理后的所述初始数据进行筛选，得到初筛数据，包括：

对联邦整合处理后的所述初始数据中各特征项包含的数据值进行统计分析，得到每一所述特征项对应的筛选系数；

从联邦整合处理后的所述初始数据中筛选出初筛数据，所述初筛数据为筛选系数满足预设筛选规则的特征项所包含的数据值。

一种可能的设计中，所述筛选系数包括信息特征度、缺失度及相关系数，所述对联邦整合处理后的所述初始数据中各特征项包含的数据值进行统计分析，得到每一所述特征项对应的筛选系数，包括：

对每一特征项的数据值分别进行特征度计算，得到每一所述特征项对应的信息特征度；

对每一特征项的数据值分别进行缺失比例统计，得到每一所述特征项对应的缺失度；

对任意两个所述特征项的数据值进行相关系数计算，得到任意两个特征项之间的相关系数。

一种可能的设计中，所述对所述初筛数据中各特征项的数据值进行特征转换，得到转换特征数据，包括：

对所述初筛数据中每一特征项进行分箱处理，得到每一所述特征项对应的多个数据箱体；每一所述数据箱体包含至少一个数据值；

将每一所述数据箱体内包含的数据值转换为一个特征值，得到与所述初筛数据对应的转换特征数据；所述特征值为与所述数据值所属数据箱体对应的特征值。

一种可能的设计中，所述对所述转换特征数据中的特征项进行降维处理，得到降维特征数据，包括：

计算所述转换特征数据中每一所述特征项所包含特征值的均值；

将每一所述特征项的特征值减去所述特征项对应的均值，得到均值化特征数据；

计算所述均值化特征数据对应的协方差矩阵；

计算所述协方差矩阵的矩阵特征值及特征向量；每一所述矩阵特征值对应一个所述特征向量；

从所述协方差矩阵中确定矩阵特征值大于预设值的特征向量，得到特征矩阵，所述特征矩阵包括的特征向量数量少于所述协方差矩阵中的特征向量数量；

将所述特征矩阵与所述均值化特征数据进行矩阵相乘运算，得到降维特征数据。

第二方面中，本申请实施例提供一种模型构建装置，其中，所述装置包括：

收发模块，用于接收所输入的初始数据；所述初始数据从至少两个数据源方获取；

处理模块，用于对获取的初始数据进行联邦整合处理；对联邦整合处理后的所述初始数据进行筛选，得到初筛数据；对所述初筛数据中各特征项的数据值进行特征转换，得到转换特征数据；所述初始数据为结构化的文字数据，所述初始数据包含样本的数据值及样本的标签，所述数据值与特征项对应；所述初筛数据包含的特征项数量少于联邦整合处理后的所述初始数据中的特征项数量

所述处理模块，还用于对所述转换特征数据中的特征项进行降维处理，得到降维特征数据；根据所述降维特征数据进行神经网络建模，得到目标模型。

第三方面中，本申请实施例提供一种模型构建的装置，其中，所述装置包括：至少一个处理器、存储器和收发器；其中，所述存储器用于存储计算机程序，所述处理器用于调用所述存储器中存储的计算机程序来执行如上述第一方面、第一方面中的各种可能的设计所提供的方法。

第四方面中，本申请实施例提供一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行上述第一方面、第一方面中的各种可能的设计所提供的方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面、第一方面中的各种可能的设计所提供的方法。

相较于现有技术，本申请实施例提供的方案中，在智慧数据分析、智慧城市、智慧教育等场景中，第一方面，通过对联邦整合后的初始数据进行筛选，以减少联邦整合后的初始数据所包含的特征项数量，对转换特征数据中的特征项进行降维处理，进一步减少转换特征数据所包含的特征项数量；通过减少特征项数量，减少降维特征数据的数据规模，以缩短建模过程中的数据处理时间，从而大幅提高了通过联邦学习进行模型构建的效率。另一方面，通过对初筛数据中各特征项的数据值进行特征转换，从而减少特征项对应数据值的类型，减小后续建模过程中进行数据处理的工作量，进一步提高基于联邦学习进行模型构建的效率。可见采用这一数据转换方式对输入的初始数据进行处理，并根据处理得到的降维特征数据进行建模，在保证联邦学习质量的前提下可有效减少建模所使用的数据规模，可缩短建模时间，因此采用上述模型构建方式能够提高模型构建的整体效率。

附图说明

图1为本申请实施例中模型构建方法的一种流程示意图；

图2为本申请实施例中模型构建方法的另一流程示意图；

图3a为本申请实施例中数据转换处理的一种数据流向变化示意图；

图3b为本申请实施例中数据转换处理的另一数据流向变化示意图；

图3c为本申请实施例中数据转换处理的另一数据流向变化示意图；

图3d为本申请实施例中数据转换处理的另一数据流向变化示意图；

图4为本申请实施例中模型构建方法的又一流程示意图；

图5为本申请实施例中用于模型构建的装置的一种结构示意图；

图6为本申请实施例中服务器的一种结构示意图；

图7为本申请实施例中服务终端的一种结构示意图；

图8为本申请实施例中服务器的一种结构示意图。

具体实施方式

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请实施例中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个装置中，或一些特征可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本申请实施例中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。

本申请实施例供了一种模型构建方法、装置、计算机设备及存储介质，可用于服务器，服务器可用于执行模型构建，如通过联邦学习构建得到各种目标模型。

本申请实施例的方案可基于人工智能技术实现，具体来说涉及人工智能技术中的联邦学习技术领域，下面将分别进行介绍。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用装置。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互装置、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

联邦学习(Federated Learning)是一种新兴的人工智能基础技术，其设计目标是在合法合规的前提下，保障大数据交换时的信息安全且保护终端数据和个人数据隐私的前提下，在多参与方或多计算结点之间开展高效率的机器学习。联邦学习本质上是一种分布式机器学习技术，分为横向和纵向两种。纵向联邦学习的本质是特征的联合，适用于用户重叠多，特征重叠少的场景，比如同一地区的商超和银行，他们触达的用户都为该地区的居民(样本相同)，但业务不同(特征不同)；横向联邦学习的本质是样本的联合，适用于参与者间业态相同但触达客户不同，即特征重叠多，用户重叠少时的场景，比如不同地区的银行间，他们的业务相似(特征相似)，但用户不同(样本不同)。联邦学习通过密码学编码技术，对传输的数据进行编码及解码等操作，实现了不泄露明文的前提下，用多方数据共同训练模型，实现了数据的可用不可见，保证了数据的安全性。

PCA(Principle Component Analysis)主成分分析，是一种统计方法，广泛应用于的高纬度数据的降维。中心思想是通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量即为主成分。具体做法为，将n维特征映射到k维上，k维是全新的正交特征，也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴，新的坐标轴的选择与数据本身是密切相关的。其中，第一个新坐标轴选择是原始数据中方差最大的方向，第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的，第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推，可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴，我们发现，大部分方差都包含在前面k个坐标轴中，后面的坐标轴所含的方差几乎为0。于是，我们可以忽略余下的坐标轴，只保留前面k个含有绝大部分方差的坐标轴。事实上，这相当于只保留包含绝大部分方差的维度特征，而忽略包含方差几乎为0的特征维度，实现对数据特征的降维处理。

K-means(K-means Clustering，k-均值聚类)是一种聚类分析方法流行于数据挖掘领域。k-均值聚类的目的是：把n个点(可以是样本的一次观察或一个实例)划分到k个聚类中，使得每个点都属于离他最近的均值(此即聚类中心)对应的聚类，以之作为聚类的标准。事常用的基于欧式距离的聚类算法，其认为两个目标的距离越近，相似度越大。

本申请实施例中，服务器是先获取所输入的初始数据，对初始数据进行联邦整合并对整合后包含的特征项进行筛选得到初筛数据，对初筛数据中每一特征项的数据值进行特征转换得到转换特征数据并对其中包含的特征项进行降维处理，根据得到的降维特征数据进行神经网络建模得到目标模型。

其中，需要特别说明的是，本申请涉及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式装置，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请实施例主要提供以下技术方案：

1、对输入的初始数据进行联邦整合处理，对联邦整合处理后的初始数据进行筛选得到初筛数据，对初筛数据中各特征项的数据值进行特征转换得到转换特征数据，对转换特征数据中的特征项进行降维处理得到降维特征数据，根据降维特征数据进行神经网络建模得到目标模型。其中，数据流向变化过程如图3a所示。

下面，将结合几个实施例对本申请技术方案进行详细的介绍说明。

参照图1，以下介绍本申请实施例所提供的一种模型构建方法，本申请实施例包括：

201、服务器接收所输入的初始数据。

在本实施例中，服务器可接收所输入的初始数据，其中，服务器可接收来自两方或两方以上的初始数据，也即服务器所接收的初始数据可以从两个或两个以上的数据源方获取，每一数据源方的初始数据通过与数据源方对应一个数据接口输入至服务器。其中，所述初始数据为结构化的文字数据，所述初始数据包含样本的数据值及样本的标签，所述数据值与特征项对应，样本与每一特征项对应的数据值组合即可体现样本的特征信息，数据值也即是样本的特征，如特征项为收入及学历，则样本与收入及学历对应的数据值即组合为该样本的特征信息；标签即是对样本进行分类所得到的结果，如标签的分类为“优质客户”与“非优质客户”，则样本的标签为“是”也即对应“优质客户”这一分类，为“否”则对应“非优质客户”这一分类。样本可以是个体样本，如每一个体即对应一个样本，个体可以是人、基因等需要进行大批量分析的个体。

202、服务器对输入的初始数据进行联邦整合处理。

为对多组初始数据的数据内容进行整合，服务器接收到初始数据后，即可对初始数据进行联邦整合处理。进行联邦整合处理可包含三种具体整合处理方式：纵向联邦学习、横向联邦学习、同时进行横向及纵向联邦学习。

为对样本量进行扩充，可对多组初始数据进行样本联邦整合，此过程也即是对包含相同特征项但包含不同用户的两方或多方数据进行联邦学习，隐私计算建模至少有两方参与，可根据初始数据的样本及特征项，对初始数据中的多方的数据进行纵向联邦学习，也即是对多方数据进行特征项联邦整合。

例如，同一区域的保险企业及银行，所包含的用户都为该区域内的居民，也即是样本相同，但所涉及的业务存在差异，也即是特征项不同，即可对包含相同样本但特征项不同的多方数据进行整合，整合后样本数量不变，但特征项的数量相比保险企业的初始数据中特征项数量或银行的初始数据中特征项数量均有增加，若保险企业的初始数据中特征项数量为m₁，银行的初始数据中特征项数量为m₂，则整合后特征项的数量为m₃，且m₁/m₂<m₃，也即m₃大于m₁或m₂，且m₃≤m₁+m₂。

为对特征项数量进行扩充，可对多方数据进行横向联邦学习，也即是对多方数据进行样本联邦整合。

例如，对于不同区域的两家保险企业，所包含的用户不相同，但由于开展的业务相同，因此特征项相同，即可对包含相同特征项但样本不同的多方数据进行整合，整合后特征项数量不变，但样本的数量相比其中任一保险企业的初始数据中样本数据均有增加，若第一家保险企业的初始数据中样本数量为n₁，第二家保险企业的初始数据中样本数量为n₂，则整合后样本的数量为n₃，且n₁/n₂<n₃，也即n₃大于n₁或n₂，且n₃≤n₁+n₂。

为对样本量及特征项数量同时进行扩充，还可以对多方数据同时进行纵向联邦学习及横向联邦学习。还可以是，对多方数据同时进行特征项联邦整合及样本联邦整合，也即是对部分特征项重叠且部分用户重叠的两方或多方数据进行联邦学习，此时既对多方数据的特征项进行整合，也对多份初始数据的样本进行整合，也即是同时进行横向及纵向联邦学习。

进行联邦整合的过程也还可以包括对多方数据进行对齐得到对齐数据，例如，获取到两方的初始数据，其中A方有一些用户，初始数据中包含这些用户的特征；B方有另一些用户，初始数据中包含这些用户的标签，其中标签也即是进行机器学习的目标。A、B双方的用户未必完全相同，可能只有部分用户同时存在于A、B双方，也就是同时拥有特征和标签，对齐数据即为仅同时包含特征、标签的用户集合。

203、服务器对联邦整合处理后的所述初始数据进行筛选，得到初筛数据。

为从联邦整合处理后的初始数据中获取能够体现有效特征的特征项，也即是将无法体现有效特征的特征项进行筛除，服务器获取到联邦整合处理后的初始数据后，即可对联邦整合处理后的初始数据进行筛选得到初筛数据，其中，初筛数据包含的特征项数量少于联邦整合处理后的初始数据中的特征项数量。

一些实施方式中，为实现从联邦整合处理后的初始数据中准确筛选得到能够体现有效特征的特征项，所述对联邦整合处理后的所述初始数据进行筛选，得到初筛数据具体包括：

为对每一特征项所包含数据值的特征信息进行量化，可先对联邦整合处理后的初始数据中每一特征项包含的数据值进行统计分析，以得到每一特征项对应的筛选系数，通过预设筛选规则对所得到的筛选系数进行判断，从而获取其中筛选系数满足预设筛选规则的特征项并予以保留，获取联邦整合处理后的初始数据中满足筛选规则的特征项对应的数据值作为初筛数据。具体的，筛选系数中可包含一个或多个系数值，则对应筛选规则包含对一个或多个系数值进行判断的具体规则。

一些实施方式中，为提高对特征项所包含数据值的特征信息进行量化的准确性，所述筛选系数包括信息特征度、缺失度及相关系数，所述对联邦整合处理后的所述初始数据中各特征项包含的数据值进行统计分析，得到每一所述特征项对应的筛选系数具体包括：

在本申请实施例中，为实现对特征项的特征信息进行准确量化表示，筛选系数可包括信息特征度、缺失度及相关系数，其中，信息特征度(Information Value，VI)是衡量特征包含预测变量浓度的一种指标。例如，对于某一特征项所对应的数据值进行特征度计算，某一特征项对应数据值的统计结果如表1所示。

表1

	好	坏
			特征项1	G<sub>1</sub>	B<sub>1</sub>

特征度计算的具体过程可采用公式(1)表示：

IV₁＝(G₁-B₁)×log(G₁/B₁) (1)。

其中，G₁表示好样本占全体样本的比例，B₁表示坏样本占全体样本的比例，好样本也即是数据值对结果(也即标签)之间具有较强关联性的样本，坏样本也即是数据值对结果(也即标签)之间不具有较强关键性的样本，特征项的信息特征度(IV值)越大则表明该特征项的预测性越高，也即能够体现有效特征的特征项；特征项的信息特征度较小，则表明该项特征的预测性较低，也即无法体现有效特征的特征项。

同时，可对每一特征项的数据值分别进行缺失比例统计，也即是对每一特征项的数据值为空的比例进行统计，得到每一特征项对应的缺失度，缺失度越高则表明相应特征项的数据值的缺失比例越高。

还可可对任意两个特征项的数据值进行相关系数计算，从而得到特征项与其它特征项之间的相关系数，如可对两个特征项的数据值的变化情况进行计算从而得到两个特征项的相关系数，若一个特征项的数据值随另一特征项的数据值的变化进行变化，则表明这两个特征项具有较强相关性，所得到的相关系数也较大。

例如，对两个特征项的数据值具体信息如表2所示。

表2

特征项	样本1	样本2	样本3	样本4	样本5	样本6	样本7	样本8
									收入	25000	6000	60000	28000	7500	15000	6500	30000
学历	3	1	4	3	1	2	1	3

注：1表示专科学历，2表示大学本科学历，3表示硕士学历，4表示博士学历；

对两个特征项的数据值进行组合，分别得到矩阵X及矩阵Y，则矩阵X及矩阵Y均为1×8(1行8列)矩阵。

则相关系数的计算公式可采用公式(2)进行表示：

其中，r(X,Y)即为计算得到的两个特征项之间的相关系数，Cov(X,Y)为X与Y的协方差，Var[X]为X的方差，Var[Y]为Y的方差。

可预先设定筛选规则，并通过筛选规则对每一特征项的筛选系数进行筛选，从而得到满足筛选规则的特征项。例如，筛选规则可包含对两个特征项的相关系数是否大于0.8进行判断，若两个特征项的相关系数大于0.8，则删除其中IV值较低的一个特征项；筛选规则还可包含对特征项的信息特征度是否大于0.2进行判断，若特征项的信息特征度不大0.2，则删除该特征项；筛选规则还可包含对特征项的缺失度是否大于0.9进行判断，若特征项的缺失度大于0.9，则删除该特征项。获取剩余特征项作为满足筛选条件的特征项，获取联邦整合处理后的初始数据中满足筛选规则的特征项对应的数据值作为初筛数据。

204、服务器对所述初筛数据中各特征项的数据值进行特征转换，得到转换特征数据。

为了减少特征项的数据值类型，以减少后续数据处理的工作量，服务器可对初筛数据中每一特征项的数据值进行特征转换，从而对特征项的数据值进行替换。具体的，可将数值相近的数据值采用同一特征值进行替换，从而减少特征项的数据值类型，也即在不影响学习质量的情况下可减小后续进行数据处理的工作量，从而进一步提高基于联邦学习进行模型构建的效率。

一些实施方式中，为提高对各特征项的数据值进行特征转换的准确性，所述对所述初筛数据中各特征项的数据值进行特征转换，得到转换特征数据具体包括：

在本申请实施例中，可对初筛数据中每一特征项的数据值进行分箱处理，可预先设置分箱数量，根据分箱数量以对每一特征项的数据值分别进行分箱处理，通常情况下分箱数量可设置在10以内。在本申请具体实施例中可采用等距分箱、等频分箱或卡方分箱等分箱方式对数据值进行分箱处理。

例如，等距分箱过程中，可先获取特征项中数据值的区间范围，区间范围即为特征项所包含数据值中极大值与极小值之间的差值，根据差值及分箱数量确定每一数据箱体的分箱区间，每一数据箱体的分箱区间的间距相等，根据特征项中每一数据值所属的分箱区间确定每一数据值对应的数据箱体，从而实现对每一特征项的数据值进行分箱处理。

可将每一数据箱体内所包含的数据值转换为相同的一个特征值，具体的，可对每一数据箱体内所包含的数据值进行统计，某一特征项中某一数据箱体对应数据值的统计结果如表3所示。

表3

	好	坏
			特征项1-数据箱体1	I1	J1

计算得到该数据箱体的WOE(Weight of Evidence，证据权重)值，采用计算得到的每一数据箱体对应的WOE值对相对应的一个数据箱体中所包含的数据值进行替换，从而实现对每一特征项的数据值进行特征转换，获取初筛数据中每一数据值对应的特征值，即可得到与初筛数据对应的转换特征数据。其中，WOE值可用于体现各数据箱体中数据值分布的差异性，WOE值的具体计算过程如公式(3)所示：

WOE₁＝ln(I₁/J₁) (3)；

其中，I₁为数据箱体1中好样本在所有好样本中占比的比值，J₁为数据箱体1中坏样本在所有坏样本中占比的比值。

205、服务器对所述转换特征数据中的特征项进行降维处理，得到降维特征数据。

在本申请实施例中，对于转换特征数据中所包含特征项数量较多的情况，服务器可对转换特征数据所包含的特征项进行降维处理，从而在保留每一样本特征信息的情况下对特征项的数量进行缩减，以减小后续进行数据处理的工作量，从而进一步提高基于联邦学习进行模型构建的效率。

一些实施方式中，如图3d所示，为准确地对转换特征数据中特征项进行降维，所述服务器对所述转换特征数据中的特征项进行降维处理，得到降维特征数据具体包括：

计算所述均值化特征数据对应的协方差矩阵；

例如，可采用PCA(Principal Component Analysis，主成分分析)对转换特征数据进行降维处理，PCA是一种数据分析方式，常用于高维数据的降维，可用于提取数据的主要特征分量。具体的，可分别获取每一特征项所包含的特征值并计算每一特征项的均值，如对于包含Q个特征项及P个样本的转换特征数据，组成一个Q行P列的矩阵R，将矩阵R的每一行的特征值减去相应该行对应的特征项的均值，也即是对矩阵R的每一行特征值进行零均值化得到均值化特征数据，均值化特征数据即组成为矩阵S，求解协方差矩阵C＝P^-1×SS^T，S^T即为对矩阵S进行转置运算，根据所得到的协方差矩阵C求解得到矩阵特征值及对应的特征向量，每一矩阵特征值对应一组特征向量，特征向量的长度为Q，矩阵特征值的总数为Q，对所得到的Q个矩阵特征值由大到小进行排序，并按预设比例选取其中矩阵特征值较大的部分矩阵特征值，并获取所选取的部分矩阵特征值对应的特征向量组成得到特征矩阵。例如，预设比例为0.3，则可选取其中总数量为0.3Q且数值较大的矩阵特征值，并获取所选取的0.3Q矩阵特征值对应的特征向量组成得到特征矩阵，则所得到的特征矩阵U为0.3Q行Q列；将所得到的特征矩阵与均值化特征数据进行矩阵相乘运算，如将0.3Q行Q列的特征矩阵U与Q行P列的矩阵R进行相乘运算，得到0.3Q行P列的矩阵，获取所得矩阵中的数据值作为降维特征数据。降维特征数据中特征项的数量由Q降至0.3Q，样本数量P保持不变。

206、服务器根据所述降维特征数据进行神经网络建模，得到目标模型。

服务器可根据降维特征数据进行神经网络建模，也即是以降维特征数据作为模型输入，以降维特征数据中所包含的每一样本的标签作为模型的目标输出结果进行建模，从而构建得到目标模型，基于目标输出结果与预测结果之间的差别计算得到相应损失值。具体的，本申请实施例基于XGB算法进行神经网络建模，XGB(Extreme Gradient Boosting，极端梯度推进)算法是GBDT(Gradient Boosting Decision Tree，梯度提升决策树)的一种工业实现，也是通过不断增加新树，拟合伪残差去降低损失函数的损失值，XGB算法的拟合过程是使用的损失函数的二阶泰勒展开。

此外，本申请技术方法不限于应用在联邦学习过程中，任何其他建模过程均可使用。本文中的提到的技术应用于解决大型数据集建模时间过长的问题，因此对于非联邦学习场景的建模，如本地XGB建模，其他模型建模，都可以在建模之前添加一道数据集缩减的工序，找到针对该模型和该数据背景的合理缩减比例，此后大量的运用于模型的跑批过程中。

基于本实施例中技术方法的具体应用示例如下：

对多方数据进行整合后得到一组包含10万个样本、1445个特征项的数据，针对二分类问题进行联邦XGB建模，样本数据量较大，希望通过先减小数据规模，再进行建模以减少联邦建模时间。

操作过程包括：1、对整合后的数据进行清洗，基于IV值、缺失度及相关系数对特征项进行筛选，具体筛选标准参考上述实施例，得到筛选后的初筛数据中包含257个特征项；2、对257个特征项的数据值进行分箱，并计算WOE值以对数据值进行特征转换，得到对应的转换特征数据，使用所得到的转换特征数据进行XGB建模，记录模型效果指标AUC及KS；3、对257个特征项进行PCA降维，分别尝试降维至原特征项数量(原特征维度)的20％、40及70％，得到降维特征数据；4、使用所得到的三组降维特征数据进行XGB建模，记录模型效果指标AUC及KS。

其中，AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积，显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y＝x这条直线的上方，所以AUC的取值范围在0.5和1之间。AUC越接近1.0，检测方法真实性越高；等于0.5时，则真实性最低，无应用价值。

KS是衡量模型将目标事件群和非目标事件群分开的能力，以二分类目标事件为例，Y＝1坏客户，0好客户。建模完成后会对得到每个样本的预测概率，相应地可以分别得到Y＝0(好客户)、Y＝1(坏客户)样本下预测概率的分布，如果两者分布重合度越少，分隔越开，则KS越大，建模效果越好。KS计算过程通常为，首先计算每个评分分组的好、坏样本观测量，可选择等频、等距或者自定义方法进行分组；再计算每组的累计好、坏样本观测量及累计观测占比数据(即“累计好/总体好”，“累计坏/总体坏”)，并计两者比例之差Δ，最后取Δ最大时的值即为KS值。

获取所得到的四组指标AUC及KS信息如表4所示：

表4

多次实验证明，采用PCA降维处理可将特征项数量降低至初筛数据中特征项数量的20％，但模型效果保持不变，即可提高建模速度80％。

可见，通过本方案，在智慧数据分析、智慧城市、智慧教育等场景中，对输入的初始数据进行联邦整合处理，对联邦整合处理后的初始数据进行筛选得到初筛数据，对初筛数据中各特征项的数据值进行特征转换得到转换特征数据，对转换特征数据中的特征项进行降维处理得到降维特征数据，根据降维特征数据进行神经网络建模得到目标模型。本方案通过对联邦整合后的初始数据进行筛选、对转换特征数据中的特征项进行降维处理，以减少特征项的数量，通过对初筛数据中各特征项的数据值进行特征转换，以减少特征项对应数据值的类型，通过减少数据规模以减少数据处理的工作量，可缩短建模时间，提高了通过联邦学习进行模型构建的效率。

参照图2，以下介绍本申请实施例所提供的一种模型构建方法，本申请实施例包括：

201、服务器接收所输入的初始数据。

202、服务器对输入的初始数据进行联邦整合处理。

一些实施方式中，如图3b所示，为进一步缩减样本数量，所述对所述转换特征数据中的特征项进行降维处理，得到降维特征数据之后，所述根据所述降维特征数据进行神经网络建模之前，还包括：

211、对所述降维特征数据的样本进行聚类，得到多个样本类别；

212、从每一所述样本类别中选取预定比例的样本，得到缩减样本数量的降维特征数据。

获取到降维特征数据后，可进一步对降维特征数据的样本进行聚类处理，以得到与降维特征数据中样本对应的多个样本类别，根据预设比例从每一样本类别中抽取部分样本，从而对降维特征数据中所包含的样本数量进行缩减，也即是使降维特征数据中特征项数量保持不变，只是减少降维特征数据中的样本数量。其中，K-means聚类的具体类别数量可预先设定，进行样本缩减的预定比例也可预先设定，如设定预定比例为1/3、1/2或2/3，则可分别将降维特征数据的样本数量缩减至初始数量的1/3、1/2或2/3。

根据实际应用过程分析得知，若同时采取PCA与K-means两种方式缩减数据集，则最好严格按照先PCA降维后K-means筛选样本的顺序处理数据。分析其原因可能为，对于极大型的数据集，对于结果有较大贡献性的变量并不算多(相对于原始数据量本身)，因此应先确定最终模型采取的变量，基于该数据做样本筛选具有更强的代表性；反之先做样本筛选，无监督学习过程中可能会被大量的数据特征误导而导致最终筛选的样本有偏差。此外，实验也显示，在数据进行PCA后，筛选样本对结果有更敏感的影响，因此建议筛选样本的比例应先保守确定。

基于本实施例中技术方法的具体应用示例如下：

对多方数据进行整合后得到一组包含30万个样本、120个特征项的数据，针对二分类问题进行联邦XGB建模，样本数据量较大，希望通过先减小数据规模，再进行建模以减少联邦建模时间。

操作过程包括：1、对整合后的数据进行清洗，基于IV值、缺失度及相关系数对特征项进行筛选，具体筛选标准参考上述实施例，得到筛选后的初筛数据中包含15个特征项；2、对15个特征项的数据值进行分箱，并计算WOE值以对数据值进行特征转换，得到对应的转换特征数据，使用所得到的转换特征数据进行XGB建模，记录模型效果指标AUC及KS；由于此时15个特征项数量较少，不进行PCA降维处理，数据集具有合理数量的特征，但样本数非常巨大；3、对30万样本进行K-means聚类，分别将转换特征数据中样本数量缩减至2/3、1/2及1/3，得到进行样本缩减的转换特征数据；4、使用所得到的三组转换特征数据进行XGB建模，记录模型效果指标AUC及KS。

获取所得到的四组指标AUC及KS信息如表5所示：

表5

多次实验证明，减少样本1/3-1/2都可以基本维持模型效果不变，但建模速度可提升约为33％-50％左右。

在本实施例的方法中，对输入的初始数据进行联邦整合处理，对联邦整合处理后的初始数据进行筛选得到初筛数据，对初筛数据中各特征项的数据值进行特征转换得到转换特征数据并对其中包含的特征项进行降维处理得到降维特征数据，对样本进行聚类处理，以对降维特征数据的样本量进行缩减，根据进行样本量缩减后所得到的降维特征数据进行神经网络建模得到目标模型。采用上述实施例中的技术方法对降维特征数据中的样本量进行缩减，可进一步减小建模过程所处理的数据量，在确保建模质量稳定的情况下，可进一步提高建模效率。

图1中所对应的实施例中所提及的任一技术特征也同样适用于本申请实施例中的图2所对应的实施例，后续类似之处不再赘述。

参照图4，以下介绍本申请实施例所提供的一种模型构建方法，本申请实施例包括：

201、服务器接收所输入的初始数据。

202、服务器对输入的初始数据进行联邦整合处理。

一些实施方式中，如图3c所示，为更准确地对样本数量进行缩减，从而提高样本数量缩减的准确性，所述对所述转换特征数据中的特征项进行降维处理，得到降维特征数据之后，所述根据所述降维特征数据进行神经网络建模之前，还包括：

221、按照样本类型对所述降维特征数据的样本进行聚类，得到多个候选样本集，所述候选样本集包括一种样本类别的样本；

222、分别计算各候选样本集中各样本的特征系数；

223、分别从各候选样本集中确定特征系数大于预设值的目标样本，得到目标样本集，所述目标样本集包括的目标样本数量少于所述降维特征数据中的样本数量。

获取到降维特征数据后，可进一步对降维特征数据的样本进行聚类处理，以得到与降维特征数据中样本对应的多个样本类别。具体的，降维特征数据的样本进行聚类得到多个候选样本集，每一候选样本集一种样本类别的样本，此聚类过程与上述实施例中聚类获取多个样本类别的过程相同；得到候选样本集之后，可计算每一候选样本集中所包含的每一样本的特征系数，特征系数即可用于对每一样本特征性进行量化表示，可根据从各候选样本集中确定特征系数大于预设值的目标样本得到目标样本集，目标样本集包括的目标样本数量少于降维特征数据中的样本数量，通过这一对样本进行抽取的过程，即可实现对降维特征数据中所包含的样本数量进行缩减的目的，也即是使降维特征数据中特征项数量保持不变，只是减少降维特征数据中的样本数量。具体的，可从每一候选样本集中抽取特征系数大于预设值的目标样本，或者是根据预设比例从每一候选样本集中抽取特征系数较大的部分样本作为目标样本。其中，K-means聚类的具体类别数量可预先设定，进行样本缩减的预定比例也可预先设定，例如，设定预定比例为1/3、1/2或2/3，则可分别将降维特征数据的样本数量缩减至初始数量的1/3、1/2或2/3。

例如，可先计算每一样本类别的中心质点，并计算每一样本类别中所包含的每一样本与其所属的一个样本类别的中心质点之间的几何距离，取几何距离的倒数作为与每一样本对应的特征系数。样本的特征系数越大则表明该样本距离中心质点越近，可作为优选样本进行抽取。在其他实施方式中，特征系数还可采用其他系数值进行表示。

基于本实施例中技术方法的具体应用示例如下：

对多方数据进行整合后得到一组包含82万个样本、729个特征项的数据，针对二分类问题进行联邦XGB建模，样本数据量较大，希望通过先减小数据规模，再进行建模以减少联邦建模时间。

操作过程包括：1、对整合后的数据进行清洗，基于IV值、缺失度及相关系数对特征项进行筛选，具体筛选标准参考上述实施例，得到筛选后的初筛数据中包含425个特征项；2、对425个特征项的数据值进行分箱，并计算WOE值以对数据值进行特征转换，得到对应的转换特征数据，使用所得到的转换特征数据进行XGB建模，记录模型效果指标AUC及KS；3、对425个特征项进行PCA降维，分别尝试降维至原特征项数量(原特征维度)的20％-70％，得到降维特征数据，如本实验过程中将特征项降维至93个，进行模型构建时KS值与步骤2中进行模型构建的KS值相同；4、对降维特征数据中的82万样本进行K-means聚类，分别将转换特征数据中样本数量缩减至2/3、1/2及1/3，得到进行样本缩减的降维特征数据；5、使用所得到的三组转换特征数据进行XGB建模。

多次实验证明，采用上述实验方法，在确保建模效率不变的情况下(AUC及KS指标稳定)，建模速度可进一步提升。

在本实施例的方法中，对输入的初始数据进行联邦整合处理，对联邦整合处理后的初始数据进行筛选得到初筛数据，对初筛数据中各特征项的数据值进行特征转换得到转换特征数据并对其中包含的特征项进行降维处理得到降维特征数据，对样本进行聚类处理并计算聚类后每一样本类别中每一样本的特征系数，根据特征系数及预定比例对降维特征数据的样本量进行缩减，根据进行样本量缩减后所得到的降维特征数据进行神经网络建模得到目标模型。采用上述实施例中的技术方法可更精准地对降维特征数据中的样本量进行缩减，可进一步减小建模过程所处理的数据量，在确保建模质量稳定的情况下，可进一步提高建模效率。

图1、图2及图4中任一项所对应的实施例中所提及的任一技术特征也同样适用于在本申请实施例中的图5至图8所对应的实施例，后续类似之处不再赘述。

以上对本申请实施例中一种模型构建的方法进行说明，以下对执行上述模型构建的方法的模型构建的装置(例如服务器)进行介绍。

参阅图5，如图5所示的一种模型构建的装置1的结构示意图，其可应用于服务器中，用于获取所输入的初始数据，对初始数据进行联邦整合并对整合后包含的特征项进行筛选得到初筛数据，对初筛数据中每一特征项的数据值进行特征转换得到转换特征数据并对其中包含的特征项进行降维处理，根据得到的降维特征数据进行神经网络建模得到目标模型。在本申请实施例中的模型构建的装置能够实现对应于上述图1、图2及图4中任一所对应的实施例中所执行的模型构建的方法的步骤。模型构建的装置实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。所述模型构建的装置1可包括处理模块11及收发模块12，所述装置1还可以包括显示模块(图5中未标识出)，所述处理模块11、所述收发模块12的功能实现可参考图1、图2及图4所对应的实施例中所执行的操作，此处不作赘述。例如，所述处理模块11可用于控制所述收发模块12的收发、获取等操作，以及控制所述显示模块的显示预设空间等操作。

一些实施方式中，所述收发模块12，用于接收所输入的初始数据；所述初始数据从至少两个数据源方获取；

所述处理模块11，用于对获取的初始数据进行联邦整合处理；对联邦整合处理后的所述初始数据进行筛选，得到初筛数据；对所述初筛数据中各特征项的数据值进行特征转换，得到转换特征数据；所述初始数据为结构化的文字数据，所述初始数据包含样本的数据值及样本的标签，所述数据值与特征项对应；所述初筛数据包含的特征项数量少于联邦整合处理后的所述初始数据中的特征项数量；

所述处理模块11，还用于对所述转换特征数据中的特征项进行降维处理，得到降维特征数据；根据所述降维特征数据进行神经网络建模，得到目标模型。

一些实施方式中，所述处理模块11，还用于：

对所述降维特征数据的样本进行聚类，得到多个样本类别；

一些实施方式中，所述处理模块11，还用于：

分别计算各候选样本集中各样本的特征系数；

一些实施方式中，所述处理模块11，还用于：

计算所述均值化特征数据对应的协方差矩阵；

上面从模块化功能实体的角度对本申请实施例中的模型构建的装置进行了描述，下面从硬件处理的角度分别对本申请实施例中的执行模型构建的方法的模型构建的装置(例如服务器)进行描述。需要说明的是，在本申请实施例图5任一所示的实施例中的收发模块对应的实体设备可以为收发器、输入/输出单元、射频电路、通信模块和输出接口等，处理模块对应的实体设备可以为处理器。例如，图5所示的装置1可以具有如图6所示的结构，当图5所示的装置1具有如图6所示的结构时，图6中的处理器和收发器能够实现前述对应该装置1的装置实施例提供的处理模块11和收发模块12相同或相似的功能，图6中的存储器存储处理器执行上述模型构建的方法时需要调用的计算机程序。

图7是本申请实施例提供的一种服务器的结构示意图，该服务器720可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(英文全称：centralprocessing units，英文简称：CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在服务器720上执行存储介质730中的一系列指令操作。

服务器720还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，和/或，一个或一个以上操作系统741，例如Windows Server，Mac OS X，Unix,Linux，FreeBSD等等。

上述实施例中由服务器所执行的步骤可以基于该图7所示的服务器720的结构。例如上述实施例中由图5所示的装置1所执行的步骤可以基于该图7所示的服务器结构。例如，所述处理器722通过调用存储器732中的指令，执行以下操作：

通过输入输出接口758获取所输入的初始数据。

本申请实施例还提供了另一种服务终端，如图8所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该服务终端可以为包括手机、平板电脑、个人数字助理(英文全称：Personal Digital Assistant，英文简称：PDA)、销售终端(英文全称：Point of Sales，英文简称：POS)、车载电脑等任意终端设备，以终端为手机为例：

图8示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图8，手机包括：射频(英文全称：Radio Frequency，英文简称：RF)电路814、存储器820、输入单元830、显示单元840、传感器850、音频电路860、无线保真(英文全称：wirelessfidelity，英文简称：WiFi)模块870、处理器880、以及电源890等部件。本领域技术人员可以理解，图8中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图8对手机的各个构成部件进行具体的介绍：

RF电路814可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器880处理；另外，将设计上行的数据发送给基站。通常，RF电路814包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称：LowNoise Amplifier，英文简称：LNA)、双工器等。此外，RF电路814还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(英文全称：Global System of Mobile communication，英文简称：GSM)、通用分组无线服务(英文全称：General Packet Radio Service，英文简称：GPRS)、码分多址(英文全称：Code Division Multiple Access，英文简称：CDMA)、宽带码分多址(英文全称：Wideband Code Division Multiple Access,英文简称：WCDMA)、长期演进(英文全称：LongTerm Evolution，英文简称：LTE)、电子邮件、短消息服务(英文全称：Short MessagingService，英文简称：SMS)等。

存储器820可用于存储软件程序以及模块，处理器880通过运行存储在存储器820的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器820可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元830可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元830可包括触控面板831以及其他输入设备832。触控面板831，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板831上或在触控面板831附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板831可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器880，并能接收处理器880发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板831。除了触控面板831，输入单元830还可以包括其他输入设备832。具体地，其他输入设备832可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元840可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元840可包括显示面板841，可选的，可以采用液晶显示器(英文全称：LiquidCrystal Display，英文简称：LCD)、有机发光二极管(英文全称：Organic Light-EmittingDiode,英文简称：OLED)等形式来配置显示面板841。进一步的，触控面板831可覆盖显示面板841，当触控面板831检测到在其上或附近的触摸操作后，传送给处理器880以确定触摸事件的类型，随后处理器880根据触摸事件的类型在显示面板841上提供相应的视觉输出。虽然在图8中，触控面板831与显示面板841是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板831与显示面板841集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器850，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板841的亮度，接近传感器可在手机移动到耳边时，关闭显示面板841和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路860、扬声器861，传声器862可提供用户与手机之间的音频接口。音频电路860可将接收到的音频数据转换后的电信号，传输到扬声器861，由扬声器861转换为声音信号输出；另一方面，传声器862将收集的声音信号转换为电信号，由音频电路860接收后转换为音频数据，再将音频数据输出处理器880处理后，经RF电路814以发送给比如另一手机，或者将音频数据输出至存储器820以便进一步处理。

Wi-Fi属于短距离无线传输技术，手机通过Wi-Fi模块870可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图8示出了W-iFi模块870，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变申请的本质的范围内而省略。

处理器880是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器820内的软件程序和/或模块，以及调用存储在存储器820内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器880可包括一个或多个处理单元；优选的，处理器880可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器880中。

手机还包括给各个部件供电的电源890(比如电池)，电源可以通过电源管理系统与处理器880逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在在本申请实施例中，该手机所包括的处理器880还具有控制执行以上由图5所示的装置1执行的方法流程。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

以上对本申请实施例所提供的技术方案进行了详细介绍，在本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请实施例的限制。

Claims

1.一种模型构建方法，其特征在于，所述方法包括：

根据所述降维特征数据进行神经网络建模，得到目标模型。

2.根据权利要求1所述的方法，其特征在于，所述对所述转换特征数据中的特征项进行降维处理，得到降维特征数据之后，所述根据所述降维特征数据进行神经网络建模之前，所述方法还包括：

对所述降维特征数据的样本进行聚类，得到多个样本类别；

3.根据权利要求1所述的方法，其特征在于，所述对所述转换特征数据中的特征项进行降维处理，得到降维特征数据之后，所述根据所述降维特征数据进行神经网络建模之前，所述方法还包括：

分别计算各候选样本集中各样本的特征系数；

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述对联邦整合处理后的所述初始数据进行筛选，得到初筛数据，包括：

5.根据权利要求4所述的方法，其特征在于，所述筛选系数包括信息特征度、缺失度及相关系数，所述对联邦整合处理后的所述初始数据中各特征项包含的数据值进行统计分析，得到每一所述特征项对应的筛选系数，包括：

6.根据权利要求1-3中任一项所述的方法，其特征在于，所述对所述初筛数据中各特征项的数据值进行特征转换，得到转换特征数据，包括：

7.根据权利要求1-3中任一项所述的方法，其特征在于，所述对所述转换特征数据中的特征项进行降维处理，得到降维特征数据，包括：

计算所述均值化特征数据对应的协方差矩阵；

8.一种模型构建装置，其特征在于，所述装置包括：

处理模块，用于对获取的初始数据进行联邦整合处理；对联邦整合处理后的所述初始数据进行筛选，得到初筛数据；对所述初筛数据中各特征项的数据值进行特征转换，得到转换特征数据；所述初始数据为结构化的文字数据，所述初始数据包含样本的数据值及样本的标签，所述数据值与特征项对应；所述初筛数据包含的特征项数量少于联邦整合处理后的所述初始数据中的特征项数量；

9.一种模型构建的装置，其特征在于，所述装置包括：

至少一个处理器、存储器和收发器；

其中，所述存储器用于存储计算机程序，所述处理器用于调用所述存储器中存储的计算机程序来执行如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，其包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-7中任一项所述的方法。