CN111815030B

CN111815030B - 一种基于少量问卷调查数据的多目标特征预测方法

Info

Publication number: CN111815030B
Application number: CN202010530453.0A
Authority: CN
Inventors: 董雪梅; 孔旭东
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2024-02-06
Anticipated expiration: 2040-06-11
Also published as: CN111815030A

Abstract

一种基于少量问卷调查数据的多目标特征预测方法，包括如下步骤：S1：整理问卷调查数据；S2：使用k‑means方法对步骤S1中缺失数据进行插补；S3：通过独热编码和编码标签将步骤S2中补充后的非数值型特征转换为数值型特征；S4：将步骤S3中转换得到的数值型特征与任意一个想要预测的目标特征进行关联，称为一个任务；建立基于随机配置径向基网络的多任务监督学习模型，并对多个任务进行预测；S5：根据步骤S4建立模型的输出结果，得到最终的预测结果；本发明通过利用多个目标特征之间的关联性，挖掘存在于模型参数或数据特征中的共有信息，以解决问卷调查数据不足的问题。

Description

一种基于少量问卷调查数据的多目标特征预测方法

技术领域

本发明涉及问卷数据分析领域，特别是涉及一种基于少量问卷调查数据的多目标特征预测方法。

背景技术

目前，线下的问卷调查在实际生活中的运用越来越少，问卷调查的逐渐由线下转为线上，主要包括以下几点原因：其一，问卷的回收率低，尤其是问卷调查中还存在恶意丢弃问卷的现象，非但浪费了问卷，而且一定程度上还导致了环境的污染；其二，问卷内容转化为数据的成本高，包括两部分，一部分是问卷的印制成本高，另一部分是问卷分发的人力成本和时间成本高；其三，问卷调查收集的数据量少。上述线下问卷调查的前两个弊端都会直接导致第三个弊端，而问卷的数据量少会直接导致问卷调查结果不准确，失去或偏离了问卷调查的意义。因此急需一种方法能够基于少量的问卷调查数据对多个目标特征进行准确的预测，其中目标特征指的是问卷想要获取的指标，比如居民收入区间的分布和比例、居民消费倾向等等。

发明内容

本发明的目的是解决现有技术的不足，提供一种基于少量问卷调查数据的多目标特征预测方法，原理简单，预测准确。

一种基于少量问卷调查数据的多目标特征预测方法，包括如下步骤：

S1：整理问卷调查数据；

S2：使用k-means方法对步骤S1中缺失数据进行插补；

S3：通过独热编码和编码标签将步骤S2中补充后的非数值型特征转换为数值型特征；

S4：将步骤S3中转换得到的数值型特征与任意一个想要预测的目标特征进行关联，称为一个任务；建立基于随机配置径向基网络的多任务监督学习模型，并对多个任务进行预测；

S5：根据步骤S4建立模型的输出结果，得到最终的预测结果。

进一步的，所述步骤S4中，基于随机配置径向基网络的多任务监督学习模型的建立包括如下步骤：

步骤S41：整理任务的输入数据和输出数据，使其满足模型的要求；设定已经具有L-1个隐藏层节点的通用模型，L＝1,2,3,…，L为初始的设定值，该通用模型作为初始的通用模型；

步骤S42：将通用模型转换为应用模型，并根据实际输出数据与应用模型的输出数据做差，得到残差矩阵；

步骤S43：根据残差矩阵计算均方根误差，并与预先设定的误差进行比较；若满足误差要求，则模型建立完成，结束步骤；若不满足要求，则进入步骤S44；

步骤S44：通过配置满足设定要求的随机参数，增加一个新的隐藏层节点；

步骤S45：根据步骤S44的参数得到新的通用模型，返回步骤S42。

进一步的，所述步骤S41中，

首先由步骤S3转换得到的数值型特征与任意一个想要预测的目标特征进行关联，得到M个任务，其中要求每个任务的样本数量相同，N₁＝N₂＝…＝N_M＝N，N表示样本数量，N₁、N₂…N_M分别对应各个任务；若任务的样本数量不同，则对该任务内的样本进行随机采样，使其满足样本数量相等的要求；

随后对各个任务中的样本对应的输入变量进行合并，将每个任务中第i个样本进行汇总，得到M个任务的第i个样本的输入数据为其中表示第m个任务第i个样本的输入数据的转置矩阵；第i个样本对应的输出数据为/>其中i＝1,…,N，R^1×Md表示矩阵的维度，1×Md代表输入数据是一行、M*d列；

引入径向基函数k_σ(t,t′)作为模型的基函数；

给定目标函数f:R^Md→R^M，设定构建了具有L-1个隐藏层节点的多任务监督学习，得到初始的通用模型如式(2)所示，

其中表示在L-1个隐藏层节点的多任务监督学习中第j个隐藏层节点的第m个任务的最优外权参数向量，m∈(1,2,...M)，j的取值范围和隐藏层节点的数量有关；/>表示第j个隐藏层节点的最优径向基函数中心；/>表示第j个隐藏层节点的最优线性变换内权参数；/>表示第j个隐藏层节点的最优尺度参数。

进一步的，所述步骤S42中，先对数据集进行整理，包括输入数据集X＝[X¹,…,X^M]∈R^N×Md，X^m表示第m个任务中的样本形成的矩阵，X^m∈R^N×d，m∈(1,2,...M)；输出数据集Y＝[y¹,…,y^M]∈R^N×M，y^m表示第m个任务中的样本实际输出的数据形成的列向量；修改原始通用模型(2)式中的输入数据形式，得到原始应用模型，如式(3)所示：

其中K_j为矩阵；/> k_j为列向量，/>表示第m个任务在第j个隐藏层节点径向基函数上的映射；

所述残差矩阵E^L-1:表示为：

E^L-1:＝Y-f^L-1:＝[e^1,L-1,…,e^M,L-1]

其中e^m,L-1，m∈(1,2,...M)，表示具有L-1个隐藏层节点时第m个任务的残差。

进一步的，所述步骤S43中，通过残差矩阵计算得到的均方根误差与预先设定的误差标准进行比较，如果没有满足要求，如式(4)所示：

则进入下一步骤。

进一步的，所述步骤S44中，对新增的隐藏层节点配置参数w_L,σ_L,x^L，其中w_L表示权重，从U[-Φ,Φ]，Φ>0中随机配置获得；σ_L表示尺度参数，从U[0,Ω]，Ω>0中随机配置获得；x^L表示径向基函数的中心，x^L为X中选取的一个样本数据，引入适应多任务环境的变量ξ^m,L对随机配置的参数w_L,σ_L,x^L进行约束，ξ^m,L的计算如式(5)所示：

其中r∈(0,1)；μ_L为非负实值序列，满足lim_L→+∞μ_L＝0和μ_L≤(1-r)；如果求得的ξ^m,L满足则认为参数w_L,σ_L,x_L是满足条件的，否则对随机参数w_L,σ_L,x^L重新进行配置；

在获得满足变量ξ^m,L条件的参数的情况下，再根据式(6)求得/>

其中j表示第j个隐藏层节点，j的取值范围和隐藏层节点的数量有关。

进一步的，所述步骤S45中，将以及/>代入式(2)，得到新的通用模型，如式(7)所示：

进一步的，所述步骤S1的整理问卷数据过程中，能够基于问卷调查中出现的高频问题，聚合出有效特征，并根据有效特征得到步骤S4中所述的任务。

本发明的有益效果为：

本发明通过利用多个目标特征之间的关联性，挖掘存在于模型参数和数据特征中的共有信息，以解决问卷调查数据不足的问题；

本发明通过逐步增加隐藏层节点的数量，对残差进行优化，实现收敛，逐步提高模型的准确性，同时本发明提出的方法具有良好的泛化能力；

本发明通过整理高频问题，聚合有效特征，提高模型的预测效果。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

实施例一：

S1：整理问卷调查数据；

S2：使用k-means方法对步骤S1中缺失数据进行插补；

S3：通过独热编码(One-hot Encoder)和编码标签(Label Encoder)将步骤S2中补充后的非数值型特征转换为数值型特征；

S4：将步骤S3中转换得到的数值型特征与任意一个想要预测的目标特征进行关联，称为一个任务；建立基于随机配置径向基网络的多任务监督学习(MTSL-SCRBN)模型，并对多个任务进行预测；

S5：步骤S4建立的模型的输出结果，即为最终的预测结果。

所述步骤S3中非数值型特征包括：

a：根据受调查者的年龄、性别等基本信息聚合身体状况特征；

b：根据受调查者的出生、工作地域信息等聚合地区发展特征；

c：根据受调查者的情绪稳定性、随和性和尽责性等聚合非认知能力特征；

d：根据受调查者的购物情况、购物偏好等聚合消费特征；

e：根据受调查者的受教育情况、亲属的受教育情况等聚合受调查者教育资源特征等。

所述步骤S4中，基于随机配置径向基网络的多任务监督学习(MTSL-SCRBN)模型的建立包括如下步骤：

所述步骤S41中，首先由步骤S3转换得到的数值型特征与任意一个想要预测的目标特征进行关联，得到M个任务，其中要求每个任务的样本数量相同，即，N₁＝N₂＝…＝N_M＝N，N表示样本数量，N₁,N₂,…,N_M分别对应各个任务；若任务的样本数量不同，则对该任务内的样本进行随机采样，使其满足样本数量相等的要求。

随后对各个任务中的样本对应的输入变量进行合并，将每个任务中第i个样本进行汇总，得到M个任务的第i个样本的输入数据为其中表示第m个任务第i个样本的输入数据的转置矩阵；第i个样本对应的输出数据为/>其中i＝1,…,N，R^1×Md表示矩阵的维度，1×Md代表输入数据是一行，M*d列；一个任务中的一个样本对应的输入数据维度为R^1×d。

为了构建表达能力更好的模型，引入径向基函数k_σ(t,t′)作为模型的基函数，径向基函数的运算规则如式(1)所示：

其中t表示输入，t′表示径向基函数的中心，σ表示径向基函数的尺度参数。

给定目标函数f:R^Md→R^M，其中R^Md→R^M表示输入数据为1行，M*d列，输出数据为1行，M列；假设已经构建了具有L-1个隐藏层节点的多任务监督学习(MTSL-SCRBN)，得到原始通用模型如式(2)所示，

所述隐藏层节点越高，模型的误差就越小，但是运算量随之增大。在上式中表示在L-1个隐藏层节点的多任务监督学习中第j个隐藏层节点的第m个任务的最优外权参数向量，m∈(1,2,...M)，j的取值范围和隐藏层节点的数量有关；/>表示第j个隐藏层节点的最优径向基函数中心；/>表示第j个隐藏层节点的最优线性变换内权参数；/>表示第j个隐藏层节点的最优尺度参数。

所述步骤S42中，把整理好的数据集放入原始通用模型中，包括输入数据集X＝[X¹,…,X^M]∈R^N×Md，X^m表示第m个任务中的样本形成的矩阵，X^m∈R^N×d，m∈(1,2,...M)；输出数据集Y＝[y¹,…,y^M]∈R^N×M，y^m表示第m个任务中的样本实际输出的数据形成的列向量。修改原始通用模型(2)式中的输入数据形式，得到原始应用模型，如式(3)所示：

其中K_j为矩阵；/> k_j为列向量，/>表示第m个任务在第j个隐藏层节点径向基函数上的映射。

所述步骤S43中，令E^L-1:＝Y-f^L-1:＝[e^1,L-1,…,e^M,L-1]，E^L-1:表示具有L-1个隐藏层节点时的残差矩阵；e^m,L-1，m∈(1,2,...M)，表示具有L-1个隐藏层节点时第m个任务的残差。根据残差矩阵计算均方根误差并与预先设定的误差标准ε进行比较。

所述步骤S44中，如果通过‖E^L-1‖_F计算的均方根误差没有满足预先设定的误差标准ε，其中‖E^L-1‖_F表示具有L-1个隐藏层节点时的均方根误差E^L-1的范数，即式(4)所示，

其中表示e^m,L-1的2-范数的平方值，e^m,L-1表示具有L-1个隐藏层节点时第m个任务均方根误差

则需要在多任务监督学习(MTSL-SCRBN)中增加一个新的隐藏层节点，得到具有L个隐藏层节点的多任务监督学习，并对新的隐藏层节点配置参数w_L,σ_L,x^L。其中w_L表示权重，从U[-Φ,Φ]，Φ>0，中随机配置获得，U[-Φ,Φ]表示w_L服从[-Φ,Φ]上的均匀分布；σ_L表示尺度参数，从U[0,Ω]，Ω>0，中随机配置获得，U[0,Ω]表示σ_L服从[0,Ω]上的均匀分布；x^L表示径向基函数的中心，x^L为X中选取的一个样本数据。引入适应多任务环境的变量ξ^m,L对随机配置的参数w_L,σ_L,x^L进行约束，ξ^m,L的计算如式(5)所示：

其中r∈(0,1)；μ_L为非负实值序列，满足lim_L→+∞μ_L＝0和μ_L≤(1-r)。如果求得的ξ^m,L满足则认为参数w_L,σ_L,x^L是满足条件的，否则对随机参数w_L,σ_L,x^L重新进行配置。

在获得满足变量ξ^m,L条件的参数的情况下，再根据式(6)求得/>其中j表示第j个隐藏层节点，j的取值范围和隐藏层节点的数量有关，

所述步骤S45中，将以及/>代入式(2)，得到新的通用模型，如式(7)所示：

计算新模型的残差矩阵E^L:＝Y-f^L:＝[e^1,L,…,e^M,L]，以及均方根误差，

显然随着隐藏层节点的增加，模型的均方根误差会减小。

将新模型的均方根误差与预先设定的误差标准ε进行比较，若满足要求，则模型建立完成；若仍不满足要求，则重复上述过程，继续添加隐藏层节点，直到满足误差标准。

为了进一步提高模型的预测效果，能够基于问卷调查中出现的高频问题，聚合出有效特征，并根据有效特征得到步骤S4中所述的任务。

需要说明的是，本发明不仅仅能够运用于线下的问卷调查，还能够运用于线上的问卷调查，或者其他需要通过较少的特征数据量准确推断出与目标特征关联性的场景。

以上描述仅是本发明的一个具体实例，不构成对本发明的任何限制。显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修改和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于少量问卷调查数据的多目标特征预测方法，其特征在于，包括如下步骤：

S1：整理问卷调查数据；

S2：使用k-means方法对步骤S1中缺失数据进行插补；

S5：根据步骤S4建立模型的输出结果，得到最终的预测结果；

所述步骤S4中，基于随机配置径向基网络的多任务监督学习模型的建立包括如下步骤：

步骤S41：整理任务的输入数据和输出数据，使其满足模型的要求；设定已经具有L-1个隐藏层节点的多任务监督学习模型的通用模型，L＝1,2,3,…，L为初始的设定值，该通用模型作为初始的通用模型；引入径向基函数作为模型的基函数；

步骤S44：通过随机配置径向基网络配置满足设定要求的随机参数，增加一个新的隐藏层节点；

2.根据权利要求1所述的一种基于少量问卷调查数据的多目标特征预测方法，其特征在于，所述步骤S41中，

首先由步骤S3转换得到的数值型特征与任意一个想要预测的目标特征进行关联，得到M个任务，其中要求每个任务的样本数量相同，N₁＝N₂＝…＝N_M＝N，N表示样本数量，N₁、N₂…N_M分别对应各个任务；若任务的样本数量不同，则对该任务内的样本进行随机采样，使其满足样本数量相等的要求；随后对各个任务中的样本对应的输入变量进行合并，将每个任务中第i个样本进行汇总，得到M个任务的第i个样本的输入数据为其中/>m＝1,…,M，表示第m个任务第i个样本的输入数据的转置矩阵；第i个样本对应的输出数据为/>其中i＝1,…,N，R^1×Md表示矩阵的维度，1×Md代表输入数据是一行、M*d列；

引入径向基函数k_σ(t,t′)作为模型的基函数；

3.根据权利要求2所述的一种基于少量问卷调查数据的多目标特征预测方法，其特征在于，所述步骤S42中，先对数据集进行整理，包括输入数据集X＝[X¹,…,X^M]∈R^N×Md，X^m表示第m个任务中的样本形成的矩阵，X^m∈R^N×d，m∈(1,2,...M)；输出数据集Y＝[y¹,…,y^M]∈R^N ^×M，y^m表示第m个任务中的样本实际输出的数据形成的列向量；修改原始通用模型(2)式中的输入数据形式，得到原始应用模型，如式(3)所示：

所述残差矩阵E^L-1:表示为：

E^L-1:＝Y-f^L-1:＝[e^1,L-1,…,e^M,L-1]

4.根据权利要求3所述的一种基于少量问卷调查数据的多目标特征预测方法，其特征在于，所述步骤S43中，通过残差矩阵计算得到的均方根误差与预先设定的误差标准ε进行比较，如果没有满足要求，如式(4)所示：

则进入下一步骤。

5.根据权利要求4所述的一种基于少量问卷调查数据的多目标特征预测方法，其特征在于，所述步骤S44中，对新增的隐藏层节点配置参数w_L,σ_L,x^L，其中w_L表示权重，从U[-Φ,Φ]，Φ>0，中随机配置获得；σ_L表示尺度参数，从U[0,Ω]，Ω>0，中随机配置获得；x^L表示径向基函数的中心，x^L为X中选取的一个样本数据，引入适应多任务环境的变量ξ^m,L对随机配置的参数w_L,σ_L,x^L进行约束，ξ^m,L的计算如式(5)所示：

其中r∈(0,1)；μ_L为非负实值序列，满足lim_L→+∞μ_L＝0和μ_L≤(1-r)；如果求得的ξ^m,L满足则认为参数w_L,σ_L,x^L是满足条件的，否则对随机参数w_L,σ_L,x^L重新进行配置；

6.根据权利要求5所述的一种基于少量问卷调查数据的多目标特征预测方法，其特征在于，所述步骤S45中，将以及/>代入式(2)，得到新的通用模型，如式(7)所示：

7.根据权利要求1所述的一种基于少量问卷调查数据的多目标特征预测方法，其特征在于，所述步骤S1的整理问卷数据过程中，能够基于问卷调查中出现的高频问题，聚合出有效特征，并根据有效特征得到步骤S4中所述的任务。