CN110414688A

CN110414688A - 信息分析方法、装置、服务器及存储介质

Info

Publication number: CN110414688A
Application number: CN201910690865.8A
Authority: CN
Inventors: 管基月
Original assignee: Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Current assignee: Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2019-11-05

Abstract

本发明实施例适用于信息技术领域，提供了一种信息分析方法、装置、服务器及存储介质，其中，信息分析方法包括：根据各个信息系统上传的训练数据，进行联邦学习以确定包含至少两个字段变量的联邦模型，所述训练数据基于所述信息系统的信息数据训练得到，所述信息数据由至少两个字段变量对应的字段值组成；基于所述联邦模型，对至少一个字段变量进行置信区间估计，得到至少一个置信区间；基于所述至少一个置信区间，确定各信息数据中对应的字段值异常或正常，以基于异常的字段值进行分析。

Description

信息分析方法、装置、服务器及存储介质

技术领域

本发明属于信息技术领域，尤其涉及一种信息分析方法、装置、服务器及存储介质。

背景技术

在企业对企业(B2B，Business-to-Business)平台上，企业与企业之间通过专用网络或者互联网进行数据信息的传递，在此基础上实现资源交换。在B2B平台上，相同行业的企业之间通常会进行经营信息的联合分析，以根据分析结果采取措施，提升企业的市场竞争力。

然而，联合分析时涉及到的信息维度非常多，相关技术中，企业很难基于联合分析的结果迅速确定出经营信息中的异常部分。

发明内容

有鉴于此，本发明实施例提供一种信息分析方法、装置、终端及存储介质，以至少解决相关技术中企业很难基于联合分析的结果迅速确定出经营信息中的异常部分的问题。

本发明实施例的技术方案是这样实现的：

第一方面，本发明实施例提供了一种信息处理方法，该方法包括：

根据各个信息系统上传的训练数据，进行联邦学习以确定包含至少两个字段变量的联邦模型，所述训练数据基于所述信息系统的信息数据训练得到，所述信息数据由至少两个字段变量对应的字段值组成；

基于所述联邦模型，对至少一个字段变量进行置信区间估计，得到至少一个置信区间；

基于所述至少一个置信区间，确定各信息数据中对应的字段值异常或正常，以基于异常的字段值进行分析。

进一步的，所述基于所述至少一个置信区间，确定各信息数据中对应的字段值异常或正常，以基于异常的字段值进行分析，包括：

将所述置信区间下发给所述信息系统，所述置信区间用于所述信息系统根据所述置信区间确定信息数据中对应的字段值异常或正常，并基于异常的字段值进行信息分析。

进一步的，所述根据各个信息系统上传的训练数据，进行联邦学习以确定包含至少两个字段变量的联邦模型，包括：

根据各个信息系统上传的经过同态加密的训练数据，进行联邦学习以确定包含至少两个字段变量的联邦模型。

进一步的，所述训练数据还包括：至少两个未经过同态加密的字段变量和对应的经过同态加密的字段值，所述基于所述至少一个置信区间，确定各信息数据中对应的字段值异常或正常，以基于异常的字段值进行分析，包括：

将位于所述置信区间之外的经过同态加密的字段值判定为异常；

确定判定为异常的字段值对应的未经过同态加密的字段变量；

将确定出的字段变量下发给对应的信息系统，以使信息系统基于确定出的字段变量对应的字段值进行信息分析。

接收各个信息系统上传的训练数据，所述训练数据包括加密的损失值，所述加密的损失值基于至少两个所述信息系统对应的信息数据计算得到的；

解密所述加密的损失值，得到解密后的损失值；

根据所述解密后的损失值检测所述联邦模型是否处于收敛状态；

若检测到所述联邦模型处于收敛状态，则获取与所述损失值对应的梯度值；

确定与所述梯度值对应的模型参数，根据所述模型参数确定联邦模型的模型参数。

进一步的，所述根据各个信息系统上传的训练数据，进行联邦学习以确定包含至少两个字段变量的联邦模型，还包括：

若检测到所述联邦模型处于未收敛状态，则获取与所述损失值对应的梯度值，并更新所述梯度值，得到更新后的梯度值；

将所述更新后的梯度值发送给所述信息系统，以使所述信息系统根据所述更新后的梯度值更新对应的模型参数，并基于更新后的模型参数和信息数据计算得到更新后的训练数据。

进一步的，所述根据所述解密后的损失值检测所述联邦模型是否处于收敛状态，包括：

获取所述信息系统前一次发送的第一损失值，并将所述解密后的损失值记为第二损失值；

计算所述第一损失值和所述第二损失值之间的差值，并判断所述差值是否小于或者等于设定阈值；

当确定所述差值小于或者等于所述设定阈值时，确定所述联邦模型处于收敛状态；

当确定所述差值大于所述设定阈值时，确定所述联邦模型未处于收敛状态。进一步的，所述基于所述联邦模型，对至少一个字段变量进行置信区间估计，得到至少一个置信区间，包括：

对所述联邦模型的多重共线性进行检测，得到检测结果；

当所述检测结果为所述联邦模型存在多重共线性，从所述联邦模型中选择至少一个字段变量进行置信区间估计，得到至少一个置信区间；

当所述检测结果为所述联邦模型不存在多重共线性，对所述联邦模型中所有的字段变量进行置信区间估计，得到每个字段变量对应的置信区间。

第二方面，本发明实施例提供了一种信息处理装置，该装置包括：

模型确定模块，用于根据各个信息系统上传的训练数据，进行联邦学习以确定包含至少两个字段变量的联邦模型，所述训练数据基于所述信息系统的信息数据训练得到，所述信息数据由至少两个字段变量对应的字段值组成；

区间估计模块，用于基于所述联邦模型，对至少一个字段变量进行置信区间估计，得到至少一个置信区间；

区间下发模块，用于基于所述至少一个置信区间，确定各信息数据中对应的字段值异常或正常，以基于异常的字段值进行分析。

第三方面，本发明实施例提供了一种服务器，包括处理器和存储器，所述处理器和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行本发明实施例第一方面提供的信息处理方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，包括：所述计算机可读存储介质存储有计算机程序。所述计算机程序被处理器执行时实现如本发明实施例第一方面提供的信息处理方法的步骤。

本发明实施例提供的方案，服务器根据各个信息系统上传的训练数据，确定联邦模型，可以在不公开各信息系统的信息数据的情况下，实现对信息数据的联合分析，保障了数据隐私，提高了数据安全性。并通过对联邦模型中的字段变量进行置信区间估计，基于置信区间可以快速确定出各信息系统中的异常字段值，解决了现有技术中当企业联合分析涉及到的信息维度非常多时，企业很难基于联合分析的结果迅速确定出经营信息中的异常部分的问题。确定出异常部分后，各企业可以针对异常的部分进行分析，根据分析结果采取措施，提升企业的市场竞争力。

附图说明

图1是本发明实施例提供的一种信息分析方法的实现流程示意图；

图2是本发明实施例提供的另一种信息分析方法的实现流程示意图；

图3是本发明实施例提供的另一种信息分析方法的实现流程示意图；

图4是本发明实施例提供的另一种信息分析方法的实现流程示意图；

图5是本发明实施例提供的另一种信息分析方法的实现流程示意图；

图6是本发明实施例提供的一种t分布表的部分示意图；

图7是本发明实施例提供的另一种信息分析方法的实现流程示意图；

图8是本发明实施例提供的一种置信区间的查询表；

图9是本发明实施例提供的另一种信息分析方法的实现流程示意图；

图10是本发明实施例提供的另一种信息分析方法的实现流程示意图；

图11是本发明实施例提供的信息分析装置的结构框图；

图12是本发明实施例提供的服务器的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

需要说明的是，本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

参考图1，图1是本发明实施例提供的一种信息分析方法的实现流程示意图，该方法执行主体为服务器，该服务器为独立于任意一个信息系统的第三方平台，参照图1，信息分析方法包括：

S101，根据各个信息系统上传的训练数据，进行联邦学习以确定包含至少两个字段变量的联邦模型，所述训练数据基于信息系统的信息数据训练得到，所述信息数据由至少两个字段变量对应的字段值组成。

在实际应用中，信息系统可以为参与信息数据的联合分析的各个企业所使用或运营的信息系统，各个信息系统独立运行，信息数据可以为企业相关的经营信息数据，信息数据由至少两个字段变量对应的字段值组成，例如，信息数据包括企业在某年度具体的销售量、销售额、销售价格等。

这里，联邦模型是利用技术算法加密建造的机器学习模型，在对联邦模型进行训练时，由于联邦模型的训练过程是基于参数交换的方式来实现，信息系统的信息数据本身不会进行传输，因此训练完成的联邦模型在较高程度地保持了数据完整性的同时，保障了各信息系统的信息数据隐私。

参考图2，其示出了本发明实施例提供的另一种信息分析方法的流程示意图，如图2所示，所述根据各个信息系统上传的训练数据，进行联邦学习以确定包含至少两个字段变量的联邦模型，包括：

S1011，接收各个信息系统上传的训练数据，所述训练数据包括加密的损失值，所述加密的损失值基于至少两个所述信息系统对应的信息数据计算得到的。

各个信息系统根据自身的信息数据和设定的损失函数计算损失值，这里，损失函数用于衡量联邦模型预测能力的好坏，以确定联邦模型是否训练完成。在本发明实施例中，损失函数由服务器指定并预先下发给各信息系统。

各个信息系统计算出损失值后，将损失值进行加密后发送给服务器。作为本发明的一个实施例，各个信息系统将损失值进行同态加密。

对于同态加密来说，其具备以下特性：通过设定的处理方法对经过同态加密的数据进行处理，得到一个处理结果，将这一处理结果进行解密，其结果与用同一设定的处理方法处理未加密的原始数据所得到的处理结果是一致的。例如，把数字3加密之后得到密文A，数字5加密后得到密文B，将密文A与密文B之和乘以2得到密文C，密文C解密后得到的结果为16，而直接将数字3与数字5之和乘以2的结果也为16。有了同态加密后，就可以把加密后的数据上传到服务器上，在服务器上进行运算，然后下载运算后的结果，对结果进行解密，这样就得到了计算结果并且能够保证数据不被泄露。因为数据是被加密的，所以服务器即使公布加密后的数据，或加密后的数据即使发生了数据泄露，加密前的原始数据也不会被公开。

进一步的，信息系统可对整个训练数据进行同态加密，基于同态加密的这一特性，可以将加密后的训练数据发送给服务器，而不泄露训练数据本身的数据内容，进一步保证了企业之间经营信息联合分析的数据隐私性。

S1012，解密所述加密的损失值，得到解密后的损失值。

服务器对加密的损失值进行解密，得到解密后的损失值。

S1013，根据所述解密后的损失值检测所述联邦模型是否处于收敛状态。

检查联邦模型是否训练完成可以通过检测联邦模型是否处于收敛状态来完成。参考图3，其示出了本发明实施例提供的另一种信息分析方法的流程示意图，如图3所示，所述根据所述解密后的损失值检测所述联邦模型是否处于收敛状态，包括：

S10131，获取所述信息系统前一次发送的第一损失值，并将所述解密后的损失值记为第二损失值。

由于联邦模型的训练过程是一个迭代训练的过程，联邦模型需要经过多次训练才能够预测准确。信息系统每完成一次联邦模型训练后，就发送一次训练数据给服务器。服务器获取信息系统前一次发送的第一损失值，由于信息系统第一次训练联邦模型时，是没有前一次发送的第一损失值的，因此，服务器需要从第二次联邦模型训练开始才能检测联邦模型是否处于收敛状态。当然，联邦模型不可能第一次进行训练就能完成收敛，而且联邦模型完成收敛后继续进行模型训练也并不会对联邦模型的预测精度造成任何影响。

服务器将此次接收到损失值记为第二损失值，将前一次接收到的损失值记为第一损失值。

S10132，计算所述第一损失值和所述第二损失值之间的差值，并判断所述差值是否小于或者等于设定阈值。

由于有多个信息系统，每个信息系统都会发送一个损失值给服务器，也就有多个第一损失值和第二损失值，为了便于计算第一损失值和第二损失值之间的差值，服务器将所有的第一损失值进行求和或加权等计算，得到一个新的第一损失值；同样的，服务器将所有的第二损失值进行求和或加权等计算，得到一个新的第二损失值。服务器通过将新的第一损失值减去新的第二损失值，得到差值，判断差值是否小于或者等于设定阈值。

S10133，当确定所述差值小于或者等于所述设定阈值时，确定所述联邦模型处于收敛状态。

在本发明实施例中，当差值小于或等于设定阈值时，检测结果为联邦模型处于收敛状态。通常来说，前后两次损失值的差值越小，代表联邦模型越收敛，当差值为0时，说明联邦模型再进行训练也无法提升联邦模型预测的精度了。由于要将差值调整到0，需要经过长时间的训练，因此，为了能够快速进行企业间的联合分析，通常将设定阈值设置为一个接近0的值。

S10134，当确定所述差值大于所述设定阈值时，确定所述联邦模型未处于收敛状态。

当差值大于设定阈值时，检测结果为联邦模型处于未收敛状态。

S1014，若检测到所述联邦模型处于收敛状态，则获取与所述损失值对应的梯度值。

若检测到所述联邦模型处于收敛状态，说明联邦模型训练完成了。

信息系统发送的训练数据中还包括：与损失值对应的梯度值。信息系统每计算一次损失值，同时会计算一次梯度值。在求解机器学习算法的模型参数时，梯度下降法是最常采用的方法之一。信息系统在求解损失函数的值时，可以通过梯度下降法来一步步的迭代求解，得到损失值、梯度值和模型参数。

应理解，梯度值和模型参数同样经过同态加密，服务器接收到梯度值和模型参数后，需要进行解密。

S1015，确定与所述梯度值对应的模型参数，根据所述模型参数确定联邦模型的模型参数。

通过梯度下降法，可以得到梯度值对应的模型参数。由于存在多个信息系统，那么每个信息系统都会发送一个梯度值和对应模型参数给服务器。服务器可以对各个信息系统的模型参数求均值或加权，以得到联邦模型的模型参数。其中，模型参数包括：人造神经网络中的权重、支持向量机中的支持向量和线性回归或逻辑回归中的系数等。

确定好模型参数后，联邦模型也就确定好了。示例性地，确定的联邦模型可以表现为一个多元线性回归方程，其形式为：其中，k是字段变量的数量，x是字段变量，β用于表示对应的字段变量的权重值。

S1016，若检测到所述联邦模型处于未收敛状态，则获取与所述损失值对应的梯度值，并更新所述梯度值，得到更新后的梯度值。

若检测到所述联邦模型处于未收敛状态，说明联邦模型还没有训练完成，还需要继续进行训练。如全文所述，服务器获取梯度值和对应的模型参数，由于每个信息系统都会发送一个梯度值，服务器可对所有梯度值进行加权或求均值等运算，以得到更新后的梯度值。

S1017，将所述更新后的梯度值发送给所述信息系统，以使所述信息系统根据所述更新后的梯度值更新对应的模型参数，并基于更新后的模型参数和信息数据计算得到更新后的训练数据。

服务器将更新后的梯度值发送给各个信息系统，各个信息系统根据更新后的梯度值更新对应的模型参数，并基于更新后的模型参数和信息数据计算得到更新后的训练数据。

具体的，当信息系统接收到更新后的梯度值后，信息系统可根据公式w_A＝w_A0-ηG更新其对应的模型参数，其中，w_A表示更新后的模型参数，w_A0表示更新前的样本参数，η为一个预先设定好的系数，其对应的数值可根据具体需要而设置，G为更新后的梯度值。

各个信息系统更新完模型参数后，继续基于更新后的模型参数和信息数据进行联邦模型训练，返回执行上传训练数据的步骤，即返回步骤S1011，直至服务器确定联邦模型完成收敛。

本发明实施例在不公开信息数据的情况下，利用各信息系统的信息数据对联邦模型进行协同训练，使得多个信息系统在不公开信息数据的情况下也能实现对信息数据的联合分析，解决数据孤岛问题。这里，数据孤岛指的是数据在不同的信息系统独立存储，独立维护，彼此间相互孤立，形成了物理上的孤岛。

各个信息系统的信息数据之间具备共有的字段变量，也有各自私有的字段变量。例如，若信息系统A的信息数据包括销售量、销售额、销售价格，信息系统B的信息数据包括销售量、销售额。那么A信息系统和B信息系统共有的字段变量为销售量和销售额，信息系统A的私有字段变量是销售价格。在本发明实施例中，服务器最终确定的联邦模型需要包含各个信息系统的信息数据所涵盖的共有字段变量。

S102，基于联邦模型，对至少一个字段变量进行置信区间估计，得到至少一个置信区间。

参考图4，其示出了本发明实施例提供的另一种信息分析方法的流程示意图，如图4所示，基于联邦模型，对至少一个字段变量进行置信区间估计，得到至少一个置信区间，包括：

S1021，对联邦模型的多重共线性进行检测，得到检测结果。

多重共线性是指联邦模型中的字段变量之间存在较高的相关度，多重共线性会导致联邦模型估计失真。接下来以自变量的相关系数诊断法为例，说明如何检测联邦模型是否存在多重共线性。

参考图5，其示出了本发明实施例提供的另一种信息分析方法的流程示意图，如图5所示，对联邦模型的多重共线性进行检测，包括：

S10211，计算联邦模型中的字段变量两两之间的相关系数。

各个信息系统上传的训练数据还包括：至少两个未经过同态加密的字段变量和对应的经过同态加密的字段值。不同信息系统所上传的训练数据中，关于同一字段变量的字段值互不相同，例如，联邦模型中存在字段变量“销售量”，对应到信息系统A上传的信息数据，字段变量“销售量”对应的字段值为a，对应到信息系统B上传的信息数据，字段变量“销售量”对应的字段值为b。应理解，上述字段值为经过同态加密后的字段值。

相关系数是研究字段变量之间线性相关程度的量，通常由字母r表示，在本发明实施例中，相关系数的计算公式为：

其中，X和Y代表两个字段变量，Cov(X，Y)为X与Y的协方差，Var[X]为X的方差，Var[Y]为Y的方差。

S10212，对所述相关系数进行显著性检验，得到检验结果。

显著性检验就是事先对相关系数的参数或总体分布形式做出一个假设，然后利用样本信息来判断这个假设是否合理，即判断相关系数的真实情况与原假设是否有显著性差异。进行显著性检验是为了消除第一类错误和第二类错误，第一类错误是零假设为真却被错误拒绝的概率，第二类错误是零假设为误却被错误接受的概率或是研究假设为真却被拒绝的概率。

相关系数的显著性检测方法包括但不限于：t检验法。例如，如果使用t检验法，检验的步骤具体如下：

第一步，提出假设。

原假设H₀：ρ＝0；原假设H₁:ρ≠0。其中，ρ为总体相关系数。

第二步，计算检验的统计量t。

统计量t的计算公式为：其中，n为相关系数的数量，r为相关系数。

第三步，进行显著性检验。

如图6所示，图6是本发明实施例提供的一种t分布表的部分示意图。

根据给定的显著性水平ɑ和自由度df＝n-2查t分布表，得出t_α/2的值。

检验结果：若|t|大于t_α/2，则拒绝原假设H₀，表示相关系数之间存在显著的线性关系。若|t|小于或等于t_α/2，则不拒绝原假设H₀，表示相关系数之间不存在显著的线性关系。

其中，显著性水平α在统计学中为犯第一类错误的大小，第一类错误就是原假设是对的但是被拒绝的概率，我们一般给定显著性水平ɑ为0.05。自由度df指的是计算某一统计量时，取值不受限制的变量个数，通常df＝n-k。其中，n为样本数量，k为被限制的条件数或变量个数，或计算某一统计量时用到其它独立统计量的个数。

S10213，当检验结果为存在至少一个相关系数显著，确定所述联邦模型存在多重共线性；当所述检验结果为不存在相关系数显著，确定所述联邦模型不存在多重共线性。

相关系数显著即为相关系数之间具有显著的线性关系。

如果显著性检验结果表示有一个或多个相关系数是显著的，说明联邦模型存在所述多重共线性。

如果显著性检验结果表示所有相关系数都不是显著的，说明联邦模型不存在所述多重共线性。

S1022，当所述检测结果为所述联邦模型存在多重共线性，从所述联邦模型中选择至少一个字段变量进行置信区间估计，得到至少一个置信区间。

多重共线性会导致联邦模型评估失真或者不准确，因此，在检测出多重共线性后，需要找出引起多重共线性的字段变量，将其排除出去，以此消除联邦模型的多重共线性。

常用的消除多重共线性的方法包括但不限于：向前选择法。向前选择法是从模型中没有字段变量开始，然后按照下面的步骤选择字段变量来拟合模型：

第一步，对k个字段变量分别拟合与因变量y的一元线性回归模型，得到k个一元线性回归模型，k为联邦模型中字段变量的数量。然后找出F统计量的值最大的一元线性回归模型及对应的字段变量x₁，并将该字段变量x₁引入联邦模型中。在此过程中，F统计量等于两组数据的方差的比值。需要注意的是：如果所有一元线性回归模型均无统计上的显著性，说明所搜集的字段变量与因变量y之间均为不显著，说明该联邦模型构建不适合，应当考虑换其他联邦模型。

第二步，在已经引入字段变量x₁的模型上，分别引入剩余的k-1个字段变量，分别得到k-1个二元线性回归模型，继而得到k-1个新的F统计量，并从中找出F统计量的值为最大的二元线性回归模型及对应的字段变量x₂，并将该字段变量x₂引入联邦模型中。此时，该联邦模型中含有两个字段变量。

第三步，按照第二步的筛选方法，不断引入新的字段变量，直到引入的新的字段变量不能使得残差平方和显著减少为止，其中，残差平方和为用于衡量线性回归模型拟合程度的一个量。

按照上述步骤，排除掉了联邦模型中引起多重共线性的字段变量，保留在联邦模型中的字段变量都是不会引起联邦模型的多重共线性的，分别对这些保留的字段变量进行置信区间估计，得到这些字段变量对应的置信区间。

S1023，当所述检测结果为所述联邦模型不存在多重共线性，对所述联邦模型中所有的字段变量进行置信区间估计，得到每个字段变量对应的置信区间。

如果显著性检验结果表示所有相关系数都不是显著的，说明联邦模型不存在多重共线性，也就是说联邦模型中所有的字段变量都不会引起多重共线性，对联邦模型中所有的字段变量分别进行置信区间估计，得到每个字段变量对应的置信区间。

参考图7，其示出了本发明实施例提供的另一种信息分析方法的流程示意图，如图7所示，所述基于所述联邦模型，对至少一个字段变量进行置信区间估计，得到至少一个置信区间，包括：

S1024，确定所述字段变量对应的统计量。

在本发明实施例中，所述统计量是指用来描述样本特征的概括性数字度量，例如均值，方差等。应理解，这里计算统计量所用的字段变量是指所有信息系统的信息数据中同一字段所对应的字段值。例如，企业A某商品的销售量，企业B某商品的销售量，根据企业A和企业B的销售量计算统计量。应理解，由于信息系统上传的训练数据是经过同态加密的，所以计算出的统计量也是一个加密的值。

对于多个字段变量，需要分别计算各个字段对应的字段变量的统计量。例如，如果字段变量包括销售量和销售额，则分别计算销售量和销售额的统计量。

S1025，根据所述统计量确定所述字段变量对应的所述置信区间。

置信区间是指由样本统计量所构造的总体参数的估计区间，在统计学中，一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。

在本发明实施例中，每一个字段变量都有其独立的置信区间，例如，销售量有独立的置信区间，销售金额也有独立的置信区间。

置信区间的取值取决于所用到的统计量，参考图8，图8是本发明实施例提供的一种置信区间的查询表，如图8所示，根据统计量查询图8中的表格确定置信区间。例如，如果统计量为均值，假定条件为方差已知和样本数量(同一个字段所对应的字段值的数量，例如，企业A的销售金额的数量有22个，企业B的销售金额的数量有20个，则样本数量为42个)大于或等于30，则可以确定该字段的信息数据所对应的置信区间为其中，为置信上限，为置信下限；ɑ是事先所确定的一个概率值，也称为风险值，它是总体均值不包括在置信区间的概率；1-ɑ称为置信水平；z_α/2是标准正态分布上侧面积为α/2时的z值；是估计总体均值时的估计误差。也就是说，总体均值的置信区间由2部分组成：点估计值和描述估计量精度的±值，这个±值称为估计误差。如前文所述，统计量为同态加密的值，所以置信区间的上限和下限也是同态加密的值。

S103，基于所述至少一个置信区间，确定各信息数据中对应的字段值异常或正常，以基于异常的字段值进行分析。

每一个字段变量都对应一个置信区间，例如，如果信息数据中包括：销售金额和销售量，则销售金额对应一个置信区间，销售量对应一个置信区间。服务器可以自己通过置信区间来确定信息数据中对应的字段值异常或正常，也能将置信区间发送给信息系统，由信息系统来确定信息数据中对应的字段值异常或正常。

参考图9，其示出了本发明实施例提供的另一种信息分析方法的流程示意图，如图9所示，所述基于所述至少一个置信区间，确定各信息数据中对应的字段值异常或正常，以基于异常的字段值进行分析，包括：

S1031，将所述置信区间下发给所述信息系统，所述置信区间用于所述信息系统根据所述置信区间确定信息数据中对应的字段值异常或正常，并基于异常的字段值进行信息分析。

服务器将每个字段对应的置信区间下发给各个信息系统，信息系统结合每个字段变量对应的置信区间，分别对信息数据中的字段值进行检测，将字段值位于对应的置信区间之外的判定为异常。例如，如果月销售量的置信区间为80±20，即置信区间为【60，100】，如果信息系统上传的信息数据中，月销售量为40，则该月销售量在置信区间【60，100】之外，说明该信息系统上传的信息数据中，月销售量40异常。

信息系统基于确定异常的字段值进行信息分析。例如，月销售量的置信区间为【60，100】，如果信息系统A上传的信息数据中，月销售量为40，低于对应的置信区间的下限，说明结合到所有信息系统上传的信息数据中的月销售量，信息系统A的月销售量较低，可进一步说明信息系统A对应的企业在当月的商品交易竞争中处于劣势，将该结果反馈给信息系统A，以由信息系统A或相关人员针对月销售量这一部分的信息数据进行进一步分析，找出信息系统A当月商品竞争力不足的原因，以进一步做出相应的调整措施。而若信息系统B上传的信息数据中，月销售量为150，高于对应的置信区间的上限，说明结合到所有信息系统上传的信息数据中的月销售量，信息系统B的月销售量较高，可进一步说明信息系统B在当月的商品交易竞争中处于优势，将该结果反馈给信息系统B，以由信息系统B或相关人员针对月销售量这一部分的信息数据进行进一步分析，找出处于优势的原因，以继续保持。

参考图10，其示出了本发明实施例提供的另一种信息分析方法的流程示意图，如图10所示，所述基于所述至少一个置信区间，确定各信息数据中对应的字段值异常或正常，以基于异常的字段值进行分析，包括：

S1032，将位于所述置信区间之外的经过同态加密的字段值判定为异常。

服务器能够确定信息数据中对应的字段值异常或正常，信息系统在上传训练数据的同时上传不经过同态加密的字段变量和经过同态加密的字段值，不经过同态加密的字段变量可以使服务器能够得知每个信息系统分别对应有哪些字段变量。在此基础上，由于训练数据由各信息系统经过同态加密后上传，那么最终得到的置信区间也是同态加密的，如前文所述，同态加密是不影响计算和判断结果的，即，基于同态加密的训练数据进行处理，得到的加密的置信区间，将加密的置信区间与对应的加密的字段值进行比较，以判断字段值是否异常，其结果，与将加密的置信区间下发至各信息系统，在各信息系统解密得到置信区间，并由各信息系统将解密后的置信区间与对应的未加密的字段值进行比较，以判断字段值是否正常，这二者的判断结果是一致的。因此服务器根据同态加密后的置信区间能够判断同态加密的字段值是否异常。如果同态加密的字段值异常，那么解密后字段值也是异常的。

S1033，确定判定为异常的字段值对应的未经过同态加密的字段变量。

例如，如果字段变量“销售量”的字段值“A”异常，则确定异常的字段值所对应的未经过同态加密的字段变量为销售量。

S1034，将确定出的字段变量下发给对应的信息系统，以使信息系统基于确定出的字段变量对应的字段值进行信息分析。

服务器将异常的字段值以及其所对应的字段发送给对应的信息系统，信息系统就可以得知是哪个字段值异常了，信息系统可以直接对异常的字段值进行信息分析，从而可以避免信息系统自己检测异常字段。由服务器进行异常字段的检测，可以减少各个信息系统的工作量，提高信息系统的工作效率。

本发明实施例中，服务器根据各个信息系统上传的训练数据，确定联邦模型，可以在不公开各信息系统的信息数据的情况下，实现对信息数据的联合分析，保障了数据隐私，提高了数据安全性。并通过对联邦模型中的字段变量进行置信区间估计，基于置信区间可以从多个字段值中迅速确定出各信息系统中的异常字段值，解决了现有技术中当企业联合分析涉及到的信息维度非常多时，企业很难基于联合分析的结果迅速确定出经营信息中的异常部分的问题。确定出异常部分后，各企业可以针对异常的部分进行分析，根据分析结果采取措施，提升企业的市场竞争力。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

参考图11，图11是本发明实施例提供的一种信息分析装置的示意图，如图11所示，该装置包括：模型确定模块、区间估计模块和区间下发模块。

所述区间下发模块还用于：

所述模型确定模块还用于：根据各个信息系统上传的经过同态加密的训练数据，进行联邦学习以确定包含至少两个字段变量的联邦模型。

所述训练数据还包括：至少两个未经过同态加密的字段变量和对应的经过同态加密的字段值，所述区间下发模块还用于：将位于所述置信区间之外的经过同态加密的字段值判定为异常；

所述模块确定模块还用于：

解密所述加密的损失值，得到解密后的损失值；

所述模块确定模块还用于：

当确定所述差值大于所述设定阈值时，确定所述联邦模型未处于收敛状态。

所述区间估计模块还用于：对所述联邦模型的多重共线性进行检测，得到检测结果；

需要说明的是：上述实施例提供的信息分析装置在进行信息分析时，仅以上述各模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的模块完成，即将装置的内部结构划分成不同的模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的信息分析装置与信息分析方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图12是本发明一实施例提供的服务器的示意图。如图12所示，该实施例的服务器包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤，例如图1所示的步骤101至103。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如图11所示模型确定模块、区间估计模块、和字段下发模块的功能。

示例性的，所述计算机程序可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述服务器中的执行过程。

所述服务器可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，图12仅仅是服务器的示例，并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述服务器还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可以是所述服务器的内部存储单元，例如服务器的硬盘或内存。所述存储器也可以是所述服务器的外部存储设备，例如所述服务器上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器还可以既包括所述服务器的内部存储单元也包括外部存储设备。所述存储器用于存储所述计算机程序以及所述服务器所需的其他程序和数据。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/服务器和方法，可以通过其它的方式实现。例如，以上所描述的装置/服务器实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种信息分析方法，其特征在于，包括：

2.如权利要求1所述的信息分析方法，其特征在于，所述基于所述至少一个置信区间，确定各信息数据中对应的字段值异常或正常，以基于异常的字段值进行分析，包括：

3.如权利要求1所述的信息分析方法，其特征在于，所述根据各个信息系统上传的训练数据，进行联邦学习以确定包含至少两个字段变量的联邦模型，包括：

4.如权利要求1所述的信息分析方法，其特征在于，所述训练数据还包括：至少两个未经过同态加密的字段变量和对应的经过同态加密的字段值，所述基于所述至少一个置信区间，确定各信息数据中对应的字段值异常或正常，以基于异常的字段值进行分析，包括：

5.如权利要求1或3所述的信息分析方法，其特征在于所述根据各个信息系统上传的训练数据，进行联邦学习以确定包含至少两个字段变量的联邦模型，包括：

解密所述加密的损失值，得到解密后的损失值；

6.如权利要求5所述的信息分析方法，其特征在于，所述根据各个信息系统上传的训练数据，进行联邦学习以确定包含至少两个字段变量的联邦模型，还包括：

7.如权利要求5所述的信息分析方法，其特征在于，所述根据所述解密后的损失值检测所述联邦模型是否处于收敛状态，包括：

8.如权利要求1所述的信息分析方法，其特征在于，所述基于所述联邦模型，对至少一个字段变量进行置信区间估计，得到至少一个置信区间，包括：

对所述联邦模型的多重共线性进行检测，得到检测结果；

9.一种服务器，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的信息分析方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1至8任一项所述的信息分析方法。