CN114529085A

CN114529085A - 基于大数据的居民收入预测系统及其预测方法

Info

Publication number: CN114529085A
Application number: CN202210154973.5A
Authority: CN
Inventors: 刘笑颖
Original assignee: Hangzhou Wuping Technology Co ltd
Current assignee: Hangzhou Wuping Technology Co ltd
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2022-05-24

Abstract

本申请涉及居民收入预测的领域，其具体地公开了一种基于大数据的居民收入预测系统及其预测方法，其通过基于上下文的编码器模型对所述离散型变量进行高维特征提取，进一步再构造所述离散型变量的合取邻接矩阵和析取邻接矩阵以表示出所述离散型数据之间的逻辑关系特征，同样地，对于所述连续型变量，也将其通过基于上下文的编码器模型中进行处理，再将所述连续特征向量进行最大值归一化，从而得到能够与所述离散变量的邻接关系表达相对应的实数权重矩阵。进一步通过逻辑激活函数替换逻辑运算，以实现了所述连续变量的端到端所述离散化和所述逻辑关系激活。这样，可以较好地将所述离散型变量和所述连续型变量融合，进而也就能够更准确地对居民的收入进行预测。

Description

基于大数据的居民收入预测系统及其预测方法

技术领域

本发明涉及居民收入预测的领域，且更为具体地，涉及一种基于大数据的居民收入预测系统及其预测方法。

背景技术

随着社会的不断发展和人们生活水平的不断提高，居民的收入水平也在不断上升，这样就对居民有支付能力的需求以及消费品和服务的提供等方面的预测开算提出了相应地要求，其首要任务就是需要对居民的收入进行准确地预测。

但是，不同职业不同地区的居民的收入水平大不相同，不仅如此，居民的收入还受诸多方面的影响，例如工作类别、受教育程度、婚姻状况、职业、社会角色、种族、性别、国籍、年龄、需要、受教育时间、资本收益、资本支出和每周工作时间等，这样就导致对于居民收入预测的难度较大且准确度较低。因此，为了更准确地对居民的收入进行预测，期望一种基于大数据的居民收入预测系统。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种基于大数据的居民收入预测系统及其预测方法，其通过基于上下文的编码器模型对所述离散型变量进行高维特征提取，进一步再构造所述离散型变量的合取邻接矩阵和析取邻接矩阵以表示出所述离散型数据之间的逻辑关系特征，同样地，对于所述连续型变量，也将其通过基于上下文的编码器模型中进行处理，再将所述连续特征向量进行最大值归一化，从而得到能够与所述离散变量的邻接关系表达相对应的实数权重矩阵。进一步通过逻辑激活函数替换逻辑运算，以实现了所述连续变量的端到端所述离散化和所述逻辑关系激活。这样，可以较好地将所述离散型变量和所述连续型变量融合，进而也就能够更准确地对居民的收入进行预测。

采用基于深度学习技术的卷积神经网络模型来挖掘出基于大数据的居民收入预测系统所连接的多个用电设备的用电量在设备维度和时间维度上的高维关联特征，并且还进一步地表达非对角线位置的关于时间的信息，以利用时间信息进行参数的变换，从而得到更为准确的用于表示每个所述用电设备的性能是否正常的概率值。通过这样的方式，可以便于对所述用电设备的性能状态是否正常进行分析，进而解决了所述家用电器的安全隐患。

根据本申请的一个方面，提供了一种基于大数据的居民收入预测系统，其包括：

数据获取单元，用于获取与居民收入相关的所有离散型变量和所有连续型变量，所述离散型变量包括工作类别、受教育程度、婚姻状况、职业、社会角色、种族、性别和国籍，所述连续型变量包括年龄、需要、受教育时间、资本收益、资本支出和每周工作时间；

第一全局编码单元，用于将所有所述离散型变量通过包含嵌入层的基于上下文的编码器模型以获得多个离散特征向量，并将所述多个离散特征向量二维拼接为离散特征矩阵；

邻接矩阵构造单元，用于基于各个所述离散型变量之间的合取逻辑和析取逻辑，构造所述多个离散型变量的合取邻接矩阵和析取邻接矩阵，其中，在所述合取邻接矩阵中，如果两个离散型变量之间存在合取范式，则对应位置的特征值1，如果两个离散型变量之间不存在合取范式，则对应位置的特征值为0，在所述析取邻接特征矩阵中，如果两个离散型变量之间存在析取范式，则对应位置的特征值为1，如果两个离散型变量之间不存在析取范式，则对应位置的特征值为0；

邻接特征矩阵生成单元，用于分别将所述合取邻接矩阵和所述析取邻接矩阵通过卷积神经网络以获得合取特征矩阵和析取特征矩阵，并计算所述合取特征矩阵和所述析取特征矩阵之间的按位置加权和以获得邻接特征矩阵；

第一融合单元，用于将所述离散特征矩阵与所述邻接特征矩阵进行矩阵相乘以获得第一特征矩阵；

第二全局编码单元，用于将所有所述连续型变量通过所述包含嵌入层的基于上下文的编码器模型以获得多个连续特征向量；

实数权重矩阵构造单元，用于分别对所述多个连续特征向量中各个连续特征向量进行归一化处理以获得多个归一化特征向量，并将所述多个归一化特征向量二维拼接为归一化特征矩阵，其中，所述归一化特征矩阵为与离散变量的0/1邻接关系表达相对应的实数权重矩阵；

激活函数构造单元，用于基于所述实数权重矩阵和所述邻接特征矩阵使用逻辑激活函数来构造第一逻辑激活函数和第二逻辑激活函数，其中，所述第一逻辑激活函数基于所述实数权重矩阵和所述邻接特征矩阵之间的乘积生成，所述第二逻辑激活函数基于单位矩阵减去所述邻接特征矩阵与所述单位矩阵减去所述实数权重矩阵的结果之间的乘积的结果生成；

激活单元，用于使用所述第一逻辑激活函数和所述第二逻辑激活函数对每个所述连续型变量对应的连续特征向量进行激活以获得第一激活向量和第二激活向量，并计算所述第一激活向量和所述第二激活向量之间的按位置加权以获得与每个所述连续型变量对应的最终激活向量；

二维排列单元，用于将与每个所述连续型变量对应的最终激活向量进行二维排列以获得第二特征矩阵；

第二融合单元，用于融合所述第一特征矩阵和所述第二特征矩阵以获得回归矩阵；以及

回归单元，用于对所述回归矩阵进行回归解码以获得居民收入的预测值。

根据本申请的另一方面，一种基于大数据的居民收入预测系统的预测方法，其包括：

获取与居民收入相关的所有离散型变量和所有连续型变量，所述离散型变量包括工作类别、受教育程度、婚姻状况、职业、社会角色、种族、性别和国籍，所述连续型变量包括年龄、需要、受教育时间、资本收益、资本支出和每周工作时间；

将所有所述离散型变量通过包含嵌入层的基于上下文的编码器模型以获得多个离散特征向量，并将所述多个离散特征向量二维拼接为离散特征矩阵；

基于各个所述离散型变量之间的合取逻辑和析取逻辑，构造所述多个离散型变量的合取邻接矩阵和析取邻接矩阵，其中，在所述合取邻接矩阵中，如果两个离散型变量之间存在合取范式，则对应位置的特征值1，如果两个离散型变量之间不存在合取范式，则对应位置的特征值为0，在所述析取邻接特征矩阵中，如果两个离散型变量之间存在析取范式，则对应位置的特征值为1，如果两个离散型变量之间不存在析取范式，则对应位置的特征值为0；

分别将所述合取邻接矩阵和所述析取邻接矩阵通过卷积神经网络以获得合取特征矩阵和析取特征矩阵，并计算所述合取特征矩阵和所述析取特征矩阵之间的按位置加权和以获得邻接特征矩阵；

将所述离散特征矩阵与所述邻接特征矩阵进行矩阵相乘以获得第一特征矩阵；

将所有所述连续型变量通过所述包含嵌入层的基于上下文的编码器模型以获得多个连续特征向量；

分别对所述多个连续特征向量中各个连续特征向量进行归一化处理以获得多个归一化特征向量，并将所述多个归一化特征向量二维拼接为归一化特征矩阵，其中，所述归一化特征矩阵为与离散变量的0/1邻接关系表达相对应的实数权重矩阵；

基于所述实数权重矩阵和所述邻接特征矩阵使用逻辑激活函数来构造第一逻辑激活函数和第二逻辑激活函数，其中，所述第一逻辑激活函数基于所述实数权重矩阵和所述邻接特征矩阵之间的乘积生成，所述第二逻辑激活函数基于单位矩阵减去所述邻接特征矩阵与所述单位矩阵减去所述实数权重矩阵的结果之间的乘积的结果生成；

使用所述第一逻辑激活函数和所述第二逻辑激活函数对每个所述连续型变量对应的连续特征向量进行激活以获得第一激活向量和第二激活向量，并计算所述第一激活向量和所述第二激活向量之间的按位置加权以获得与每个所述连续型变量对应的最终激活向量；

将与每个所述连续型变量对应的最终激活向量进行二维排列以获得第二特征矩阵；

融合所述第一特征矩阵和所述第二特征矩阵以获得回归矩阵；以及

对所述回归矩阵进行回归解码以获得居民收入的预测值。

与现有技术相比，本申请提供的基于大数据的居民收入预测系统及其预测方法，其通过基于上下文的编码器模型对所述离散型变量进行高维特征提取，进一步再构造所述离散型变量的合取邻接矩阵和析取邻接矩阵以表示出所述离散型数据之间的逻辑关系特征，同样地，对于所述连续型变量，也将其通过基于上下文的编码器模型中进行处理，再将所述连续特征向量进行最大值归一化，从而得到能够与所述离散变量的邻接关系表达相对应的实数权重矩阵。进一步通过逻辑激活函数替换逻辑运算，以实现了所述连续变量的端到端所述离散化和所述逻辑关系激活。这样，可以较好地将所述离散型变量和所述连续型变量融合，进而也就能够更准确地对居民的收入进行预测。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的基于大数据的居民收入预测系统的框图。

图2为根据本申请实施例的基于大数据的居民收入预测系统中第一全局编码单元的框图。

图3为根据本申请实施例的基于大数据的居民收入预测系统的预测方法的流程图。

图4为根据本申请实施例的基于大数据的居民收入预测系统的预测方法的架构示意图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

场景概述

如前所述，随着社会的不断发展和人们生活水平的不断提高，居民的收入水平也在不断上升，这样就对居民有支付能力的需求以及消费品和服务的提供等方面的预测开算提出了相应地要求，其首要任务就是需要对居民的收入进行准确地预测。

具体地，在本申请的技术方案中，首先获取所有离散型变量，并通过包含嵌入层的基于上下文的编码器模型得到多个离散特征向量。同时构造离散型变量的合取邻接矩阵和析取邻接矩阵，并通过卷积神经网络后计算加权和得到邻接特征矩阵，再将邻接特征矩阵乘以离散特征向量的二维排列矩阵得到第一特征矩阵。

获取所有连续型变量，并通过包含嵌入层的基于上下文的编码器模型得到多个连续特征向量，再将所有连续特征向量分别进行最大值归一化以得到多个归一化特征向量，然后进行二维拼接以获得归一化特征矩阵。

这样，通过将连续特征向量进行最大值归一化并进行二维拼接，获得了能够与离散变量的0/1邻接关系表达相对应的[0,1]的实数权重矩阵。然后，通过以如下逻辑激活函数替换逻辑运算：

F_active1(F，M)＝I_V-M×(I_V-F)

F_active2(F,M)＝M×F

实质上是以可导的实数运算模拟逻辑运算，从而实现了连续变量的端到端离散化和逻辑关系激活，这样，可以较好地将离散型变量和连续型变量融合，提高了最终预测准确度。

因此，通过逻辑激活函数获得与每个连续特征向量对应的第一激活向量和第二激活向量，并计算两者的加权和得到最终激活向量，再将对应于每个连续型变量的最终激活向量进行二维排列以得到第二特征矩阵。

最后，融合第一特征矩阵和第二特征矩阵，通过解码回归获得预测值。

基于此，本申请提出了一种基于大数据的居民收入预测系统，其包括：数据获取单元，用于获取与居民收入相关的所有离散型变量和所有连续型变量，所述离散型变量包括工作类别、受教育程度、婚姻状况、职业、社会角色、种族、性别和国籍，所述连续型变量包括年龄、需要、受教育时间、资本收益、资本支出和每周工作时间；第一全局编码单元，用于将所有所述离散型变量通过包含嵌入层的基于上下文的编码器模型以获得多个离散特征向量，并将所述多个离散特征向量二维拼接为离散特征矩阵；邻接矩阵构造单元，用于基于各个所述离散型变量之间的合取逻辑和析取逻辑，构造所述多个离散型变量的合取邻接矩阵和析取邻接矩阵，其中，在所述合取邻接矩阵中，如果两个离散型变量之间存在合取范式，则对应位置的特征值1，如果两个离散型变量之间不存在合取范式，则对应位置的特征值为0，在所述析取邻接特征矩阵中，如果两个离散型变量之间存在析取范式，则对应位置的特征值为1，如果两个离散型变量之间不存在析取范式，则对应位置的特征值为0；邻接特征矩阵生成单元，用于分别将所述合取邻接矩阵和所述析取邻接矩阵通过卷积神经网络以获得合取特征矩阵和析取特征矩阵，并计算所述合取特征矩阵和所述析取特征矩阵之间的按位置加权和以获得邻接特征矩阵；第一融合单元，用于将所述离散特征矩阵与所述邻接特征矩阵进行矩阵相乘以获得第一特征矩阵；第二全局编码单元，用于将所有所述连续型变量通过所述包含嵌入层的基于上下文的编码器模型以获得多个连续特征向量；实数权重矩阵构造单元，用于分别对所述多个连续特征向量中各个连续特征向量进行归一化处理以获得多个归一化特征向量，并将所述多个归一化特征向量二维拼接为归一化特征矩阵，其中，所述归一化特征矩阵为与离散变量的0/1邻接关系表达相对应的实数权重矩阵；激活函数构造单元，用于基于所述实数权重矩阵和所述邻接特征矩阵使用逻辑激活函数来构造第一逻辑激活函数和第二逻辑激活函数，其中，所述第一逻辑激活函数基于所述实数权重矩阵和所述邻接特征矩阵之间的乘积生成，所述第二逻辑激活函数基于单位矩阵减去所述邻接特征矩阵与所述单位矩阵减去所述实数权重矩阵的结果之间的乘积的结果生成；激活单元，用于使用所述第一逻辑激活函数和所述第二逻辑激活函数对每个所述连续型变量对应的连续特征向量进行激活以获得第一激活向量和第二激活向量，并计算所述第一激活向量和所述第二激活向量之间的按位置加权以获得与每个所述连续型变量对应的最终激活向量；二维排列单元，用于将与每个所述连续型变量对应的最终激活向量进行二维排列以获得第二特征矩阵；第二融合单元，用于融合所述第一特征矩阵和所述第二特征矩阵以获得回归矩阵；以及，回归单元，用于对所述回归矩阵进行回归解码以获得居民收入的预测值。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性系统

图1图示了根据本申请实施例的基于大数据的居民收入预测系统的框图。如图1所示，根据本申请实施例的基于大数据的居民收入预测系统200，包括：数据获取单元210，用于获取与居民收入相关的所有离散型变量和所有连续型变量，所述离散型变量包括工作类别、受教育程度、婚姻状况、职业、社会角色、种族、性别和国籍，所述连续型变量包括年龄、需要、受教育时间、资本收益、资本支出和每周工作时间；第一全局编码单元220，用于将所有所述离散型变量通过包含嵌入层的基于上下文的编码器模型以获得多个离散特征向量，并将所述多个离散特征向量二维拼接为离散特征矩阵；邻接矩阵构造单元230，用于基于各个所述离散型变量之间的合取逻辑和析取逻辑，构造所述多个离散型变量的合取邻接矩阵和析取邻接矩阵，其中，在所述合取邻接矩阵中，如果两个离散型变量之间存在合取范式，则对应位置的特征值1，如果两个离散型变量之间不存在合取范式，则对应位置的特征值为0，在所述析取邻接特征矩阵中，如果两个离散型变量之间存在析取范式，则对应位置的特征值为1，如果两个离散型变量之间不存在析取范式，则对应位置的特征值为0；邻接特征矩阵生成单元240，用于分别将所述合取邻接矩阵和所述析取邻接矩阵通过卷积神经网络以获得合取特征矩阵和析取特征矩阵，并计算所述合取特征矩阵和所述析取特征矩阵之间的按位置加权和以获得邻接特征矩阵；第一融合单元250，用于将所述离散特征矩阵与所述邻接特征矩阵进行矩阵相乘以获得第一特征矩阵；第二全局编码单元260，用于将所有所述连续型变量通过所述包含嵌入层的基于上下文的编码器模型以获得多个连续特征向量；实数权重矩阵构造单元270，用于分别对所述多个连续特征向量中各个连续特征向量进行归一化处理以获得多个归一化特征向量，并将所述多个归一化特征向量二维拼接为归一化特征矩阵，其中，所述归一化特征矩阵为与离散变量的0/1邻接关系表达相对应的实数权重矩阵；激活函数构造单元280，用于基于所述实数权重矩阵和所述邻接特征矩阵使用逻辑激活函数来构造第一逻辑激活函数和第二逻辑激活函数，其中，所述第一逻辑激活函数基于所述实数权重矩阵和所述邻接特征矩阵之间的乘积生成，所述第二逻辑激活函数基于单位矩阵减去所述邻接特征矩阵与所述单位矩阵减去所述实数权重矩阵的结果之间的乘积的结果生成；激活单元290，用于使用所述第一逻辑激活函数和所述第二逻辑激活函数对每个所述连续型变量对应的连续特征向量进行激活以获得第一激活向量和第二激活向量，并计算所述第一激活向量和所述第二激活向量之间的按位置加权以获得与每个所述连续型变量对应的最终激活向量；二维排列单元300，用于将与每个所述连续型变量对应的最终激活向量进行二维排列以获得第二特征矩阵；第二融合单元310，用于融合所述第一特征矩阵和所述第二特征矩阵以获得回归矩阵；以及，回归单元320，用于对所述回归矩阵进行回归解码以获得居民收入的预测值。

具体地，在本申请实施例中，所述数据获取单元210和所述第一全局编码单元220，用于获取与居民收入相关的所有离散型变量和所有连续型变量，所述离散型变量包括工作类别、受教育程度、婚姻状况、职业、社会角色、种族、性别和国籍，所述连续型变量包括年龄、需要、受教育时间、资本收益、资本支出和每周工作时间，并将所有所述离散型变量通过包含嵌入层的基于上下文的编码器模型以获得多个离散特征向量，并将所述多个离散特征向量二维拼接为离散特征矩阵。如前所述，在本申请的技术方案中，工作类别、受教育程度、婚姻状况、职业、社会角色、种族、性别、国籍为离散型变量，而年龄、需要、受教育时间、资本收益、资本支出和每周工作时间为连续变量，因此，需要使用不用的编码方式进行编码，在此过程中还会造成数据融合时的尺度差异。因此，在使用不用的编码方法获得对应的所述特征向量后，在特征层面进行融合时，需考虑所述不同数据之间的尺度差异。

也就是，在本申请的技术方案中，首先，获取与居民收入相关的所有离散型变量和所有连续型变量，所述离散型变量包括工作类别、受教育程度、婚姻状况、职业、社会角色、种族、性别和国籍，所述连续型变量包括年龄、需要、受教育时间、资本收益、资本支出和每周工作时间。然后，将所有所述离散型变量通过包含嵌入层的基于上下文的编码器模型中进行编码处理，以获得具有全局性关联信息的多个离散特征向量。接着，进一步再将所述多个离散特征向量二维拼接为离散特征矩阵。

更具体地，在本申请实施例中，所述第一全局编码单元，包括：首先，使用所述编码器模型的嵌入层分别将所述离散型变量转化为输入向量，以便于后续的编码处理，从而获得输入向量的序列，其中，所述输入向量的序列中每一输入向量对应于一个所述离散型变量。然后，将所述输入向量的序列通过所述编码器模型的转换器中进行编码处理，以获得多个离散特征向量。应可以理解，由于基于转换器的编码器模型能够基于上下文对所述输入向量进行全局性编码，因此所获得的所述多个离散特征向量具有全局性的离散型变量关联信息。最后，将所述多个离散特征向量二维拼接为所述离散特征矩阵。

图2图示了根据本申请实施例的基于大数据的居民收入预测系统中第一全局编码单元的框图。如图2所示，所述第一全局编码单元220，包括：嵌入向量转化子单元221，用于使用所述编码器模型的嵌入层分别将所述离散型变量转化为输入向量以获得输入向量的序列，其中，所述输入向量的序列中每一输入向量对应于一个所述离散型变量；转换器子单元222，用于将所述输入向量的序列通过所述编码器模型的转换器以获得多个离散特征向量；以及，矩阵拼接子单元223，用于将所述多个离散特征向量二维拼接为所述离散特征矩阵。

具体地，在本申请实施例中，所述邻接矩阵构造单元230，用于基于各个所述离散型变量之间的合取逻辑和析取逻辑，构造所述多个离散型变量的合取邻接矩阵和析取邻接矩阵，其中，在所述合取邻接矩阵中，如果两个离散型变量之间存在合取范式，则对应位置的特征值1，如果两个离散型变量之间不存在合取范式，则对应位置的特征值为0，在所述析取邻接特征矩阵中，如果两个离散型变量之间存在析取范式，则对应位置的特征值为1，如果两个离散型变量之间不存在析取范式，则对应位置的特征值为0。应可以理解，在本申请的技术方案中，对于所述离散型变量而言，为了更准确地提取所述离散型变量的隐含特征，还需要关注到所述各个离散型变量间的逻辑关联关系，并且考虑到规则之间的逻辑运算通常包括合取和析取，分别以符号∧和∨表示，用于表示规则之间的并列或者替代关系，也就是“并且”和“或者”的含义。而针对所述离散型变量之间也存在这种关系，例如社会角色和婚姻状况之间，这两者就是“并且”的关系；而对于工作类别和职业之间，这两者可以具有关联关系，就是“或者”的关系。因此，在本申请的技术方案中，这样就可以基于各个所述离散型变量之间的合取逻辑和析取逻辑，构造所述多个离散型变量的合取邻接矩阵和析取邻接矩阵。

更具体地，在本申请实施例中，所述邻接矩阵构造单元，进一步用于：基于各个所述离散型变量之间的合取逻辑以如下公式来构建所述合取邻接矩阵；其中，所述公式为：

其中，

是合取矩阵，用于表示相应的一对规则构成合取范式时矩阵位置取1，而非合取范式时矩阵位置取0；以及，基于各个所述离散型变量之间的析取逻辑以如下公式来构建所述析取邻接矩阵；其中，所述公式为：

其中，

是析取邻接矩阵，用于表示相应的一对规则构成析取范式时矩阵位置取1，而非析取范式时矩阵位置取0。

具体地，在本申请实施例中，所述邻接特征矩阵生成单元240和所述第一融合单元250，用于分别将所述合取邻接矩阵和所述析取邻接矩阵通过卷积神经网络以获得合取特征矩阵和析取特征矩阵，并计算所述合取特征矩阵和所述析取特征矩阵之间的按位置加权和以获得邻接特征矩阵，并将所述离散特征矩阵与所述邻接特征矩阵进行矩阵相乘以获得第一特征矩阵。也就是，在本申请的技术方案中，在构造所述合取邻接矩阵和所述析取邻接矩阵后，分别将所述合取邻接矩阵和所述析取邻接矩阵通过卷积神经网络中进行处理，以获得合取特征矩阵和析取特征矩阵。相应地，在一个具体示例中，所述卷积神经网络的各层在层的正向传递过程中对输入数据进行卷积处理、沿通道维度的均值池化处理和激活处理以由所述卷积神经网络的最后一层输出所述合取特征矩阵和所述析取特征矩阵。

接着，进一步再计算所述合取特征矩阵和所述析取特征矩阵之间的按位置加权和，以融合所述合取特征和所述析取特征，从而获得邻接特征矩阵。然后，再将所述邻接特征矩阵乘以所述离散特征向量的二维排列矩阵，也就是离散特征矩阵，以将所述逻辑关系特征融合到所述高维特征空间中，从而得到第一特征矩阵。

具体地，在本申请实施例中，所述第二全局编码单元260和所述实数权重矩阵构造单元270，用于将所有所述连续型变量通过所述包含嵌入层的基于上下文的编码器模型以获得多个连续特征向量，并分别对所述多个连续特征向量中各个连续特征向量进行归一化处理以获得多个归一化特征向量，并将所述多个归一化特征向量二维拼接为归一化特征矩阵，其中，所述归一化特征矩阵为与离散变量的0/1邻接关系表达相对应的实数权重矩阵。也就是，在本申请的技术方案中，对于所述连续型变量，首先，同样地，将所有所述连续型变量通过所述包含嵌入层的基于上下文的编码器模型中进行编码处理，以获得多个连续特征向量。

接着，进一步再分别对所述多个连续特征向量中各个连续特征向量进行归一化处理以获得多个归一化特征向量。在一个具体示例中，可以分别对所述多个连续特征向量中各个连续特征向量进行基于最大值的归一化处理以获得所述多个归一化特征向量。也就是，这里，可用公式X_norm＝(X_i-X_min)/(X_max-X_min)分别计算所述多个连续特征向量中各个连续特征向量的最大值归一化数据，其中，X_i表示所述多个连续特征向量中各个连续特征向量。应可以理解，通过这样的方式处理，可以消除数据特征之间的量纲影响，便于度量和后续的计算。

然后，将得到的所述多个归一化特征向量二维拼接为归一化特征矩阵。应可以理解，这样，通过将所述连续特征向量进行最大值归一化并进行二维拼接处理，获得了能够与所述离散变量的0/1邻接关系表达相对应的[0,1]的实数权重矩阵。

具体地，在本申请实施例中，所述激活函数构造单元280，用于基于所述实数权重矩阵和所述邻接特征矩阵使用逻辑激活函数来构造第一逻辑激活函数和第二逻辑激活函数，其中，所述第一逻辑激活函数基于所述实数权重矩阵和所述邻接特征矩阵之间的乘积生成，所述第二逻辑激活函数基于单位矩阵减去所述邻接特征矩阵与所述单位矩阵减去所述实数权重矩阵的结果之间的乘积的结果生成。也就是，在得到所述实数权重矩阵和所述邻接特征矩阵后，进一步再基于所述实数权重矩阵和所述邻接特征矩阵通过逻辑激活函数替换逻辑运算，这实质上是以可导的实数运算模拟逻辑运算，从而实现了所述连续变量的端到端离散化和逻辑关系激活，这样，可以较好地将所述离散型变量和所述连续型变量融合，以提高最终预测的准确度。

更具体地，在本申请实施例中，所述激活函数构造单元，进一步用于：基于所述实数权重矩阵和所述邻接特征矩阵使用逻辑激活函数以如下公式来构造第一逻辑激活函数和第二逻辑激活函数；其中，所述公式为：

F_aCtive1(F，M)＝I_V-M×(I_V-F)

F_active2(F,M)＝M×F

其中，F_active1(F,M)表示所述第一逻辑激活函数，F_active2(F,M)所述第二逻辑激活函数，M为实数权重矩阵、F为邻接特征矩阵，I_V为单位矩阵。

具体地，在本申请实施例中，所述激活单元290和所述二维排列单元300，用于使用所述第一逻辑激活函数和所述第二逻辑激活函数对每个所述连续型变量对应的连续特征向量进行激活以获得第一激活向量和第二激活向量，并计算所述第一激活向量和所述第二激活向量之间的按位置加权以获得与每个所述连续型变量对应的最终激活向量，再将与每个所述连续型变量对应的最终激活向量进行二维排列以获得第二特征矩阵。也就是，在本申请的技术方案中，在得到所述第一逻辑激活函数和所述第二逻辑激活函数后，使用所述第一逻辑激活函数和所述第二逻辑激活函数对每个所述连续型变量对应的连续特征向量进行激活处理，以获得与每个所述连续特征向量对应的第一激活向量和第二激活向量。接着，计算两个激活向量之间的按位置加权和以获得与每个所述连续型变量对应的最终激活向量。然后，进一步将与每个所述连续型变量对应的最终激活向量进行二维排列以获得第二特征矩阵，以便于后续的回归处理。

具体地，在本申请实施例中，所述第二融合单元310和所述回归单元320，用于融合所述第一特征矩阵和所述第二特征矩阵以获得回归矩阵，并对所述回归矩阵进行回归解码以获得居民收入的预测值。也就是，在一个具体示例中，可以计算所述第一特征矩阵和所述第二特征矩阵之间的按位置加权和以获得所述回归矩阵。然后，再将所述回归矩阵进行回归解码以获得居民收入的预测值。

更具体地，在本申请实施例中，所述回归单元，进一步用于：以如下公式对所述回归矩阵进行回归解码以获得所述居民收入的预测值，其中，所述公式为：

其中X是回归矩阵，Y是输出值，W是权重矩阵，

表示矩阵乘。

综上，基于本申请实施例的所述基于大数据的居民收入预测系统200被阐明，其通过基于上下文的编码器模型对所述离散型变量进行高维特征提取，进一步再构造所述离散型变量的合取邻接矩阵和析取邻接矩阵以表示出所述离散型数据之间的逻辑关系特征，同样地，对于所述连续型变量，也将其通过基于上下文的编码器模型中进行处理，再将所述连续特征向量进行最大值归一化，从而得到能够与所述离散变量的邻接关系表达相对应的实数权重矩阵。进一步通过逻辑激活函数替换逻辑运算，以实现了所述连续变量的端到端所述离散化和所述逻辑关系激活。这样，可以较好地将所述离散型变量和所述连续型变量融合，进而也就能够更准确地对居民的收入进行预测。

如上所述，根据本申请实施例的基于大数据的居民收入预测系统200可以实现在各种终端设备中，例如基于大数据的居民收入预测算法的服务器等。在一个示例中，根据本申请实施例的基于大数据的居民收入预测系统200可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该基于大数据的居民收入预测系统200可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该基于大数据的居民收入预测系统200同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该基于大数据的居民收入预测系统200与该终端设备也可以是分立的设备，并且该基于大数据的居民收入预测系统200可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性方法

图3图示了基于大数据的居民收入预测系统的预测方法的流程图。如图3所示，根据本申请实施例的基于大数据的居民收入预测系统的预测方法，包括步骤：S110，获取与居民收入相关的所有离散型变量和所有连续型变量，所述离散型变量包括工作类别、受教育程度、婚姻状况、职业、社会角色、种族、性别和国籍，所述连续型变量包括年龄、需要、受教育时间、资本收益、资本支出和每周工作时间；S120，将所有所述离散型变量通过包含嵌入层的基于上下文的编码器模型以获得多个离散特征向量，并将所述多个离散特征向量二维拼接为离散特征矩阵；S130，基于各个所述离散型变量之间的合取逻辑和析取逻辑，构造所述多个离散型变量的合取邻接矩阵和析取邻接矩阵，其中，在所述合取邻接矩阵中，如果两个离散型变量之间存在合取范式，则对应位置的特征值1，如果两个离散型变量之间不存在合取范式，则对应位置的特征值为0，在所述析取邻接特征矩阵中，如果两个离散型变量之间存在析取范式，则对应位置的特征值为1，如果两个离散型变量之间不存在析取范式，则对应位置的特征值为0；S140，分别将所述合取邻接矩阵和所述析取邻接矩阵通过卷积神经网络以获得合取特征矩阵和析取特征矩阵，并计算所述合取特征矩阵和所述析取特征矩阵之间的按位置加权和以获得邻接特征矩阵；S150，将所述离散特征矩阵与所述邻接特征矩阵进行矩阵相乘以获得第一特征矩阵；S160，将所有所述连续型变量通过所述包含嵌入层的基于上下文的编码器模型以获得多个连续特征向量；S170，分别对所述多个连续特征向量中各个连续特征向量进行归一化处理以获得多个归一化特征向量，并将所述多个归一化特征向量二维拼接为归一化特征矩阵，其中，所述归一化特征矩阵为与离散变量的0/1邻接关系表达相对应的实数权重矩阵；S180，基于所述实数权重矩阵和所述邻接特征矩阵使用逻辑激活函数来构造第一逻辑激活函数和第二逻辑激活函数，其中，所述第一逻辑激活函数基于所述实数权重矩阵和所述邻接特征矩阵之间的乘积生成，所述第二逻辑激活函数基于单位矩阵减去所述邻接特征矩阵与所述单位矩阵减去所述实数权重矩阵的结果之间的乘积的结果生成；S190，使用所述第一逻辑激活函数和所述第二逻辑激活函数对每个所述连续型变量对应的连续特征向量进行激活以获得第一激活向量和第二激活向量，并计算所述第一激活向量和所述第二激活向量之间的按位置加权以获得与每个所述连续型变量对应的最终激活向量；S200，将与每个所述连续型变量对应的最终激活向量进行二维排列以获得第二特征矩阵；S210，融合所述第一特征矩阵和所述第二特征矩阵以获得回归矩阵；以及，S220，对所述回归矩阵进行回归解码以获得居民收入的预测值。

图4图示了根据本申请实施例的基于大数据的居民收入预测系统的预测方法的架构示意图。如图4所示，在所述基于大数据的居民收入预测系统的预测方法的网络架构中，首先，将获得的所有所述离散型变量(例如，如图4中所示意的P1)通过包含嵌入层的基于上下文的编码器模型(例如，如图4中所示意的E)以获得多个离散特征向量(例如，如图4中所示意的VF1)，并将所述多个离散特征向量二维拼接为离散特征矩阵(例如，如图4中所示意的MF0)；接着，基于各个所述离散型变量之间的合取逻辑和析取逻辑，构造所述多个离散型变量的合取邻接矩阵(例如，如图4中所示意的M1)和析取邻接矩阵(例如，如图4中所示意的M2)；然后，分别将所述合取邻接矩阵和所述析取邻接矩阵通过卷积神经网络(例如，如图4中所示意的CNN)以获得合取特征矩阵(例如，如图4中所示意的MF1)和析取特征矩阵(例如，如图4中所示意的MF2)，并计算所述合取特征矩阵和所述析取特征矩阵之间的按位置加权和以获得邻接特征矩阵(例如，如图4中所示意的MF)；接着，将所述离散特征矩阵与所述邻接特征矩阵进行矩阵相乘以获得第一特征矩阵(例如，如图4中所示意的M1)；然后，将获得的所有所述连续型变量(例如，如图4中所示意的P2)通过所述包含嵌入层的基于上下文的编码器模型(例如，如图4中所示意的E)以获得多个连续特征向量(例如，如图4中所示意的VF2)；接着，分别对所述多个连续特征向量中各个连续特征向量进行归一化处理以获得多个归一化特征向量(例如，如图4中所示意的VF3)，并将所述多个归一化特征向量二维拼接为归一化特征矩阵(例如，如图4中所示意的MF3)，其中，所述归一化特征矩阵为与离散变量的0/1邻接关系表达相对应的实数权重矩阵；然后，基于所述实数权重矩阵和所述邻接特征矩阵使用逻辑激活函数来构造第一逻辑激活函数(例如，如图4中所示意的S1)和第二逻辑激活函数(例如，如图4中所示意的S2)；接着，使用所述第一逻辑激活函数和所述第二逻辑激活函数对每个所述连续型变量对应的连续特征向量进行激活以获得第一激活向量(例如，如图4中所示意的VS1)和第二激活向量(例如，如图4中所示意的VS2)，并计算所述第一激活向量和所述第二激活向量之间的按位置加权以获得与每个所述连续型变量对应的最终激活向量(例如，如图4中所示意的VS)；然后，将与每个所述连续型变量对应的最终激活向量进行二维排列以获得第二特征矩阵(例如，如图4中所示意的M2)；接着，融合所述第一特征矩阵和所述第二特征矩阵以获得回归矩阵(例如，如图4中所示意的M)；以及，最后，对所述回归矩阵进行回归解码以获得居民收入的预测值。

综上，基于本申请实施例的所述基于大数据的居民收入预测系统的预测方法被阐明，其通过基于上下文的编码器模型对所述离散型变量进行高维特征提取，进一步再构造所述离散型变量的合取邻接矩阵和析取邻接矩阵以表示出所述离散型数据之间的逻辑关系特征，同样地，对于所述连续型变量，也将其通过基于上下文的编码器模型中进行处理，再将所述连续特征向量进行最大值归一化，从而得到能够与所述离散变量的邻接关系表达相对应的实数权重矩阵。进一步通过逻辑激活函数替换逻辑运算，以实现了所述连续变量的端到端所述离散化和所述逻辑关系激活。这样，可以较好地将所述离散型变量和所述连续型变量融合，进而也就能够更准确地对居民的收入进行预测。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种基于大数据的居民收入预测系统，其特征在于，包括：

2.根据权利要求1所述的基于大数据的居民收入预测系统，其中，所述第一全局编码单元，包括：

嵌入向量转化子单元，用于使用所述编码器模型的嵌入层分别将所述离散型变量转化为输入向量以获得输入向量的序列，其中，所述输入向量的序列中每一输入向量对应于一个所述离散型变量；以及

转换器子单元，用于将所述输入向量的序列通过所述编码器模型的转换器以获得多个离散特征向量；以及

矩阵拼接子单元，用于将所述多个离散特征向量二维拼接为所述离散特征矩阵。

3.根据权利要求2所述的基于大数据的居民收入预测系统，其中，所述邻接矩阵构造单元，进一步用于：

基于各个所述离散型变量之间的合取逻辑以如下公式来构建所述合取邻接矩阵；

其中，所述公式为：

其中，

是合取矩阵，用于表示相应的一对规则构成合取范式时矩阵位置取1，而非合取范式时矩阵位置取0；以及

基于各个所述离散型变量之间的析取逻辑以如下公式来构建所述析取邻接矩阵；

其中，所述公式为：

其中，

4.根据权利要求3所述的基于大数据的居民收入预测系统，其中，在所述邻接特征矩阵生成单元中，所述卷积神经网络的各层在层的正向传递过程中对输入数据进行卷积处理、沿通道维度的均值池化处理和激活处理以由所述卷积神经网络的最后一层输出所述合取特征矩阵和所述析取特征矩阵。

5.根据权利要求4所述的基于大数据的居民收入预测系统，其中，所述实数权重矩阵构造单元，用于分别对所述多个连续特征向量中各个连续特征向量进行基于最大值的归一化处理以获得所述多个归一化特征向量。

6.根据权利要求5所述的基于大数据的居民收入预测系统，其中，所述激活函数构造单元，用于基于所述实数权重矩阵和所述邻接特征矩阵使用逻辑激活函数以如下公式来构造第一逻辑激活函数和第二逻辑激活函数；

其中，所述公式为：

F_active1(F,M)＝I_V-M×(I_V-F)

F_active2(F,M)＝M×F

7.根据权利要求6所述的基于大数据的居民收入预测系统，其中，所述第二融合单元，进一步用于计算所述第一特征矩阵和所述第二特征矩阵之间的按位置加权和以获得所述回归矩阵。

8.根据权利要求7所述的基于大数据的居民收入预测系统，其中，所述回归单元，进一步用于以如下公式对所述回归矩阵进行回归解码以获得所述居民收入的预测值，其中，所述公式为：

其中X是回归矩阵，Y是输出值，W是权重矩阵，

表示矩阵乘。

9.一种基于大数据的居民收入预测系统的预测方法，其特征在于，包括：

对所述回归矩阵进行回归解码以获得居民收入的预测值。

10.根据权利要求9所述的基于大数据的居民收入预测系统的预测方法，其中，将所有所述离散型变量通过包含嵌入层的基于上下文的编码器模型以获得多个离散特征向量，并将所述多个离散特征向量二维拼接为离散特征矩阵，包括：

使用所述编码器模型的嵌入层分别将所述离散型变量转化为输入向量以获得输入向量的序列，其中，所述输入向量的序列中每一输入向量对应于一个所述离散型变量；

将所述输入向量的序列通过所述编码器模型的转换器以获得多个离散特征向量；以及

将所述多个离散特征向量二维拼接为所述离散特征矩阵。